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类 斗 学 
数据 科学 

有 人 称 数据 科学 家 为 “21 世纪 头号 性 感 职业 ”(https://hbr.org/2012/10/data-scientist-the- 
SeXiest-job-of-the-21st-century/) 。 虽 说 如 此 称呼 有 些 夸张 ， 但 这 个 名 称 对 数据 科学 的 推 法 却 
一 点 也 没 错 ， 这 是 一 个 莹 勃发 展 、 前 途 无 限 的 行业 。 很 多 分 析 师 都 预言 ， 未 来 十 年 会 需要 
比 现在 多 得 多 的 数据 科学 工作 者 。 


那么 ， 什 么 是 数据 科学 ? 唯 有 正确 理解 数据 科学 ， 才 能 培养 出 数据 科学 家 。 根 据 广 受 业界 
先 誉 的 文 氏 图 (http:/drewconway.comy/zia/2013/3/26/the-data-science-venn-diagram) ， 数 据 科 
学 是 以 下 几 个 方面 的 交叉 : 


。 黑客 技能 
。 数学 和 统计 学 知识 
。 专业 技能 


我 原本 很 想 写 一 本 能 涵盖 以 上 三 个 方面 的 书 ， 但 很 快意 识 到 仅 关 于 专业 技能 的 撰写 就 会 耗费 
上 万 页 笔墨 ， 于 是 及 时 放弃 转 而 专注 于 前 两 个 方面 。 我 的 目标 有 两 个 : 一 是 帮助 读者 掌握 从 
事 数 据 科学 工作 所 必需 的 黑客 技能 ， 二 是 帮助 读者 熟悉 数学 和 统计 学 ， 这 是 数据 科学 的 核心 。 


对 一 本 书 来 说 ， 这 两 个 愿望 有 点 大 了 。 学 习 黑 客 技能 的 最 好 方法 就 是 钻研 技术 。 通 过 阅读 
本 书 ， 你 可 以 理解 我 钻研 技术 的 方式 ， 但 相同 的 方式 对 你 未 必 最 适合 ， 你 可 以 理解 我 使 用 
的 一 些 工 具 ， 但 相同 的 工具 对 你 来 说 未 必 最 顺手 ;你 可 以 理解 我 如 何 解决 数据 问题 ， 但 相 
同 的 方式 对 你 来 说 未 必 最 有 效 。 举 例 的 目的 和 希望 是 局 发 你 以 自己 的 方式 和 方法 完成 工 
作 。 本 书 涵盖 的 所 有 代码 和 数据 都 可 以 从 GitHub 上 下 载 。 


同样 ， 学 习 数 学 的 最 好 方式 就 是 研习 数学 。 当 然 本 书 并 不 是 一 部 数学 若 作 ， 我 们 在 本 书 中 
大 半 也 不 会 “研习 数学 "， 我 想 强 调 的 是 数学 知识 对 从 事 数据 科学 工作 至 关 重 要 。 不 理解 
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概率 、 统 计 、 线 性 代数 ， 就 无 法 真正 开始 数据 科学 工作 。 在 需要 的 地 方 ， 书 中 会 引入 数学 
方程 式 、 数 学 直觉 、 数 学 公理 ， 以 及 借以 阐释 大 数学 思想 的 卡通 漫画 。 有 我 在 ， 别 怕 ! 


总 之 ， 数 据 科 学 相当 有 趣 (尤其 和 税务 筹划 或 者 煤矿 开采 等 其 他 工作 相 比 )。 


从 零 开 始 
很 多 很 多 的 数据 科学 库 、 框 架 、 模 块 、 工 具 箱 可 以 有 效 地 实现 数据 科学 大 部 分 常见 的 (和 
不 常见 的 ) 算法 与 技术 。 如 有 果 你 是 一 位 数据 科学 家 ， 就 会 非常 熟悉 NumPy、scikit-learn、 
pandas 以 及 其 他 库 。 这 些 库 对 数据 科学 工作 至 关 重要 。 如 果 还 没有 真正 理解 数据 科学 ， 运 
用 这 些 库 也 是 开始 数据 科学 工作 的 好 方式 。 


在 本 书 中 ， 我 们 从 零 开 始 着 手数 据 科 学 工作 。 这 意味 着 为 了 获得 更 好 的 理解 ， 我 们 需要 自 
己 末 手 构建 工具 和 实现 算法 。 我 花费 了 很 多 心思 选择 注释 良好 、 简 洁 易 读 的 实现 范例 。 在 
大 部 分 情形 下 ， 所 建立 的 工具 意义 清晰 但 实用 性 有 限 ， 它 们 对 规模 较 小 的 示例 数据 集运 转 
良好 ， 但 对 “网 络 级 别 ” 的 数据 集 就 束手无策 了 。 


在 全 书 中 ， 我 会 向 读者 指出 相应 的 库 ， 用 以 将 相应 技术 运用 于 大 规模 数据 集 ， 但 本 书 中 我 
们 不 会 使 用 它们 。 


对 学 习 数据 科学 ， 一 直 有 这 样 一 种 积极 的 争论 ， 即 什么 样 的 语言 环境 最 好 ? 许多 人 认为 
是 统计 语言 R。( 我 们 说 ， 他 们 错 了 。) 还 有 一 些 人 认为 是 Java 或 者 Scala。 而 我 认为 ， 
Python 才 是 最 佳 选择 ! 


对 于 学 习 和 从 事 数据 科学 工作 ，Python 具有 几 大 优势 : 


免费 ， 
。 编程 相对 简单 (尤其 是 也 易于 理解 ) ; 
。 具有 很 多 数据 科学 相关 的 库 。 


我 不 地 说 Python 是 我 最 爱 的 编程 语言 ， 因 为 的 确 存在 其 他 一 些 更 舒适 、 设 计 更 棒 、 编 程 更 
有 乐趣 的 语言 。 但 是 ， 每 当 着 手 一 个 新 的 数据 科学 项 目 时 ， 我 最 终 使 用 的 是 Python， 每 当 
需要 快速 构建 某 个 有 效 程序 的 原型 时 ， 我 使 用 的 是 Python; 每 当 需 要 用 简洁 易 懂 的 方式 表 
达 数 据 科学 概念 时 ， 我 使 用 的 还 是 Python。 于 是 ， 本 书 也 采用 Python。 

但 是 ， 教 授 Python 不 是 本 书 的 目的 (尽管 通过 学 习 本 书 你 会 学 到 一 些 Python 知识 )。 本 
书 会 用 一 章 快速 介绍 Python 的 重要 特征 ， 这 些 特征 与 本 书目 的 紧密 相关 。 倘 若 读者 没有 
Python 基础 〈 或 编程 基础 ) ， 那 需要 再 补充 阅读 一 些 关 于 Python 的 入 门 指导 。 


































































































本 书 数据 科学 导论 的 其 余部 分 采取 了 类 似 的 书写 方式 ， 在 必要 或 需要 阐明 时 才 深 入 细 方 ， 
否则 省 略 细节 留 给 读者 自己 去 挖掘 (或 者 在 维基 百科 上 查阅 )。 











过 去 我 曾 培 训 过 许多 数据 科学 家 。 不 是 每 个 人 都 会 努力 变 成 改变 世界 的 明星 级 数据 忍者 ， 
但 所 有 人 都 通过 培训 成 为 了 更 棒 的 数据 科学 家 。 我 越 来 越 相 信 ， 任 何 拥有 一 定数 学 基础 和 
编程 技术 的 人 ， 只 要 再 匹配 一 些 基 本 材料 就 可 以 从 事 数据 科学 工作 。 必 需 品 是 好 奇 心 、 勤 
人 奋 工作 的 态度 ， 还 有 本 书 。 没 错 ， 就 是 本 书 ! 


本 书 排版 约定 
本 书 使 用 了 下 列 排版 约定 。 


。 楷体 
表示 新 术语 。 











。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 
句 和 关键 字 等 。 





。 等 宽 粗 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





。 等 宽 斜 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 


该 图 标 表示 提示 或 建议 。 





该 图 标 表示 一 般 注 释 。 








该 图 标 表示 警告 或 警示 。 


示例 代码 的 使 用 


本 书 的 补充 材料 (示例 代码 、 练 习 等 ) 都 可 以 从 GitHub 下 载 : https://github.com/joelgrus/ 








前 言 | 
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data-sclience-from-scratch 。 





本 书 提供 代码 的 目的 是 帮 你 快速 完成 工作 。 一 般 情 况 下 ， 你 可 以 在 你 的 程序 或 文档 中 使 用 
本 书 中 的 代码 ， 而 不 必 取 得 我 们 的 许可 ， 除 非 你 想 复制 书 中 很 大 一 部 分 代码 。 例 如 ， 你 在 
编写 程序 时 ， 用 到 了 本 书 中 的 几 个 代码 片段 ， 这 不 必 取 得 我 们 的 许可 。 但 若 将 O'Reilly 轿 
书 中 的 代码 制 成 光盘 并 进行 出 售 或 传播 ， 则 需 获 得 我 们 的 许可 。 引 用 示例 代码 或 书 中 内 容 
来 解答 问题 无 需 许 可 。 将 书 中 很 大 一 部 分 的 示例 代码 用 于 你 个 人 的 产品 文档 ， 这 需要 我 们 
的 许可 。 


如 果 你 引用 了 本 书 的 内 容 并 标明 版 权 归 属 声明 ， 我 们 对 此 表示 感谢 ,但 这 不 是 强制 的 。 版 
权 归 属 声 明 通 常 包括 : 标题 、 作 者 、 出 版 社 和 ISBN， 例如: “Data Science from Scratch by 
Joel Grus (O’Reilly). Copyright 2015 Joel Grus, 978-1-4919-0142-7”。 





















































如 果 你 认为 你 对 示例 代码 的 使 用 已 经 超出 上 述 范 围 ， 或 者 你 对 是 否 需 要 获得 示例 代码 的 授 
权 还 不 清楚 ， 请 随时 联系 我 们 : permissions@oreilly.com 。 


Safari? Books Online 


Safari Books Online (http://www.safaribooksonline.com) 是 应 运 而 

Sa fa rl. 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 技 

Books Online 术 和 商务 作家 的 专业 作品 。 技 术 专 家 、 软 件 开 发 人 员 、Web 设 

计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 题 、 学 习 和 认证 培训 时 ， 都 将 Safari 
Books Online 视 作 获取 资料 的 首选 渠道 。 




















对 于 组 织 团 体 (https://www.safaribooksonline.com/enterprise/)、 政 府 机 构 (https:/www. 
safaribooksonline.com/government/)、 教 育 机 构 (https://www.safaribooksonline.com/academic- 
public-library/) 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定价 策略 (https:/ 
www.safaribooksonline.com/pricing/)。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 

O’Reilly Media、 Prentice Hall Professional、 Addison-Wesley Professional、 Microsoft Press、 











Sams、 Que、Peachpit Press、 Focal Press、 Cisco Press、 John Wiley & Sons、 Syngress、 
Morgan Kaufmann、 IBM Redbooks、 Packt、Adobe Press、FT Press、Apress、Manning、New 
Riders、McGraw-Hill、Jones 多 Bartlett、Course Technology 以 及 其 他 几 十 家 出 版 社 (https:// 
www.safaribooksonline.com/our-library/) 的 上 千 种 图 书 、 培 训 视频 和 正式 出 版 之 前 的 书稿 。 
要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 























美国 : 


O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京) 有 限 公 司 


O’Reilly 的 每 一 本 





例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://shop.oreilly.com/product/0636920033400.do 





都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions @oreilly.com 





要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 











我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 
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的 篇 幅 提 出 了 合理 











的 建议 )。 其 实 他 可 以 选择 更 轻松 的 方式 ， 例 如 可 以 说 :“ 那 个 总 发 样 章 给 我 的 是 什么 人 ? 
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如 果 我 从 未 学 习 数 据 科 学 ， 怎 么 能 写 出 这 样 一 本 书 ? 如 果 没 有 Dave Hsu、Igor Tatarinov、 
John Rauser 和 Farecast 群 组 其 他 人 的 影响 ， 我 不 大 可 能 学 习 数 据 科 学 
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得 到 了 很 大 的 改善 ， 非 常 感谢 。Debashis Ghosh 全 再 
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因而 本 
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H 了 许多 错误 ， 并 指出 很 多 含混 
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学 部 分 。 本 书 原本 表达 了 肯定 Python 否定 R 的 看 法 ，Andrew Musselman 建议 淡化 这 种 
立场 ， 我 后 来 体会 到 这 是 金玉 良言 。 我 也 非常 感谢 Trey Causey、Ryan Matthew Balfanz、 
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自己 的 欠缺 ， 需 要 写 一 本 














大 牛 。 我 深 感 
非 刻意 地 ) 提醒 我 在 书 中 加 一 章 线性 代数 的 内 容 。 同 相 
一 章 中 的 若干 重大 缺漏 。 
最 后 ， 向 Ganga 和 Madeline 致 以 我 无 限 的 感恩 。 比 写 一 本 书 更 痛苦 的 事 ， 莫 过 于 和 写 这 本 


地 ) 指出 了 数据 处 到 
书 的 人 朝夕 相对 。 本 书 得 以 完成 ， 全 赖 家 人 的 支持 与 鼓励 。 








“数据 | 数据 1! 数据 !1!” 他 不 耐烦 地 吃 哮 着 ，“ 我 不 能 做 无 米 之 炊 | 


一 一 阿 瑟 .柯南 . 道 尔 


1.1 数据 的 威力 


生活 中 ， 数 据 无 处 不 在 。 用 户 的 每 次 点 击 ， 网 站 都 会 记录 下 来 。 你 每 时 每 刻 的 位 置 和 速 
度 ， 智 能 手机 也 会 记录 下 来 。 量化 自我 ”生活 方式 的 倡导 者 使 用 智能 计 步 器 记录 心率 、 
行动 习惯 、 饮 食 习惯 、 睡 眠 方式 。 智 能 汽车 记录 驾驶 习惯 ,智能 家 居 设 施 记录 生活 习惯 ， 
智能 购物 设备 记录 购物 习惯 ， 等 等 。 互 联网 是 一 个 广 认 的 知识 谱系 ， 包 括 有 无 数 交 又 引用 
的 百科 全 书 ， 电 影 、 音 乐 、 赛 讯 、 弹 球 机 、 模 因 、 鸡 尾 酒 等 各 种 专业 数据 库 ， 以 及 许多 政 
府 发 布 的 多 得 让 人 理 不 清 头 绪 的 统计 数据 〈 某 些 还 是 比较 真实 的 )。 


在 这 些 数据 之 中 隐藏 着 无 数 问题 的 答案 ， 这 些 问题 从 没有 人 提出 过 。 让 我 们 在 这 本 书 中 一 
起 学 习 如 何 找 出 这 些 问 题 。 


类 | 池 
1.2 什么 是 数据 科学 
有 这 样 一 个 形容 数据 科学 家 的 小 笑话 。 数 据 科学 家 有 什么 特点 昵 ” 他 们 是 计算 机 科学 家 中 
的 统计 专家 ， 是 统计 专家 中 的 计算 机 科学 家 (抱歉 ， 笑 话 有 点 冷 )。 事 实 上 ， 有 些 数据 科 
学 家 的 确 是 统计 专家 ， 而 有 些 数据 科学 家 则 堪 比 软件 工程 师 。 有 的 数据 科学 家 是 机 器 学 习 
专家 ， 而 也 有 一 些 数 据 科学 家 仅仅 是 这 方面 的 菜鸟 。 有 的 数据 科学 家 拥有 博士 学 位 ， 出 版 
































过 出 色 的 学 术 作品 ， 而 有 些 数 据 科学 家 从 不 阅读 论文 (我 都 有 点 不 好 意思 了 )。 总 之 , 不 
管 你 如 何 定义 数据 科学 家 ， 总 会 找到 某 些 反例 来 否定 这 样 的 定义 。 

然而 ， 这 并 不 会 阻止 我 们 尝试 为 数据 科学 家 下 定义 。 我 们 认为 ， 数 据 科 学 家 是 能 够 从 混乱 
数据 中 剥离 出 洞 见 的 人 。 今 天 ， 世 界 各 地 有 无 数 人 着 力 于 此 。 

举 个 例子 ， 一 个 名 叫 OkCupid 的 约会 网 站 为 了 给 会 员 找 到 合适 的 对 象 ， 要求 他 们 回答 上 千 
个 问题 。OKCupid 通过 分 析 这 些 答案 来 确定 你 可 以 问 哪 些 无 伤 大 雅 的 问题 ， 以 此 来 猜测 你 
和 某 个 心仪 之 人 初次 约会 时 会 有 多 大 可 能 直接 奔 向 三 又 (http://blog.okcupid.com/index.php/ 


the-best-questions-for-first-dates/) 。 











再 举 个 例子 ， 你 在 Facebook 上 需要 填写 家 乡 和 居住 地 的 信息 。 表 面 上 看 ， 网 站 是 在 帮 
助 你 的 朋友 更 容易 地 找到 你 ， 联 系 你 。 但 实际 上 ， 除 此 以 外 ， 网 站 还 通过 分 析 地 理 信 息 
来 研究 全 球 移 民 模 式 (https://www.facebook.com/notes/facebook-data-science/coordinated- 
migration/10151930946453859)， 或 者 研究 不 同 球 队 的 粉丝 分 布 情况 (https://www.facebook. 
com/notes/facebook-data-science/nfl-fans-on-facebook/10151298370823859 ) 。 























另 一 个 例子 ， 一 个 名 叫 Target 的 大 型 零售 商 ， 会 追踪 消费 者 在 线 上 线 下 的 购买 与 互动 数据 
(http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html)， 再 从 中 分 析 ， 预 测 哪 
些 客户 怀孕 了 ， 以 便 问 其 推销 合适 的 母 婴 商品 。 


最 后 ， 举 一 个 奥巴马 2012 年 竞选 的 例子 。 他 的 莞 选 团队 雇用 了 很 多 数据 科学 家 ， 专 家 们 
搜集 选民 的 相关 数据 ， 通 过 数据 挖掘 识别 不 同 的 选民 。 他 们 通过 实验 的 方法 确定 哪些 选民 
需要 更 多 的 关注 ， 并 选择 最 有 鼓舞 性 的 拉票 活动 ， 把 重心 放 在 最 能 吸引 选票 的 活动 上 。 最 
后 ， 奥 巴 马 胜出 ， 成 功 地 第 二 次 出 任 总 统 。 人 们 普遍 认为 数据 科学 家 功 不 可 没 。 同 时 ， 这 
意味 着 数据 分 析 在 未 来 竞选 中 会 扮演 越 来 越 重要 的 角色 ， 一 场 数 据 竞 争 的 硝烟 弥漫 开 来 ， 
好 戏 刚 刚 开始 。 
































现在 ， 如 果 谈 论 竞 争 令 你 感到 疲惫 ， 那 我 们 转 而 谈 谈 公益 一 一 数据 科学 家 偶尔 也 会 使 用 数 
据 来 帮助 政府 提高 工作 效率 (http://www.marketplace.org/topics/tech/beyond-ad-clicks-using- 
big-data-social-go0d)、 帮 助 流 浪 者 (http://dssg.io/2014/08/20/paths-homelessness.html)、 改 善 
公共 健康 (https://plus.google.com/communities/109572103057302114737) 等 。 当 然 ， 如 果 
你 能 想 出 好 方法 来 提高 广告 点 击 率 ， 这 对 你 的 职业 发 展 也 不 会 有 什么 坏处 。 




















1.3 激励 假设 : DataSciencester 


恭喜 ! 你 被 聘请 来 领导 DataSciencester 的 数据 科学 工作 。DataSciencester 是 数据 科学 家 们 
的 社交 网 络 。 





虽然 号 称 为 数据 科学 家 服务 ，DataSciencester 却 从 未 践 行 数据 科学 任务 (同样 也 从 未 构建 
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自己 的 产品 )。 当 然 ， 这 是 你 的 工作 。 在 本 书 中 ， 我 们 通过 解决 在 工作 中 磁 到 的 一 个 个 问 
题 ， 来 学 习 数 据 科 学 的 思想 。 我 们 有 时 会 直接 研究 用 户 提供 的 数据 ， 有 时 会 研究 用 户 与 网 
站 互动 生成 的 数据 ， 有 时 研究 从 我 们 自己 设计 的 实验 中 获得 的 数据 。 


DataSciencester 拥有 一 种 特别 强烈 的 原创 精神 一 一 “ 非 我 莫 属 ”(NotrInvented-Here， 
NIH)， 即 工作 中 使 用 到 的 工具 必须 自己 亲手 创建 。 这 样 完 成 工作 之 后 ， 你 会 全 面 深 入 地 
理解 数据 科学 。 将 来 ， 你 更 可 以 将 自己 所 学 运用 于 更 有 前 途 的 公司 ， 或 去 解决 任何 有 趣 的 
问题 。 

















欢迎 加 入 ， 祝 你 好 运 ! ”( 周 五 可 以 罕 牛 仔裤 上 班 ， 洗 手 间 位 于 大 厅 右 侧 。) 


1.3.1 寻找 关键 联系 人 
现在 ， 你 在 DataSciencester 开始 第 一 天 的 工作 。 网 络 部 的 副 总 一 直 有 一 些 关 于 客户 的 问题 
没有 解决 ， 以 前 找 不 到 人 帮忙 ， 现 在 你 来 了 ， 他 特别 高 兴 。 





第 一 ， 他 需要 你 识别 出 数据 科学 家 中 的 “关键 联系 人 ”。 因 而 他 转 给 你 DataSciencester 所 
有 用 户 的 网 络 关系 数据 。( 实 际 工作 中 ， 你 需要 的 数据 不 会 轻而易举 地 拿 过 来 。 我 们 在 第 9 
章 专门 讨论 获取 数据 的 方法 。) 


从 整体 上 看 ， 数 据 是 一 个 包含 所 有 用 户 的 列表 。 列 表 的 每 个 元 素 是 一 个 字典 〈 即 一 个 
dict)。 字 典 中 包含 了 用 户 的 ID 〈 即 id) 和 账号 名 ( 即 name。 在 这 批 数据 中 ，name 与 id 
的 数字 为 谐音 ) : 











users = [ 
{ "id": 0, "name": "Hero"” }, 
{ "id": 1, "name": "Dunn" }, 
{ "id": 2, "name": "Sue" }, 
{ "id": 3, "name": "Chi" }, 
{ "id": 4, "name": "Thor" }, 
{ "id": 5, "name": "Clive" }, 
{ "id": 6, "name": "Hicks" }, 
{ "id": 7, "name": "Devin" }, 
{ "id": 8, "name": "Kate" }, 
{ "id": 9, "name": "Klein" } 
] 


同时 ， 他 也 给 了 你 用 户 的 “ 友 邻 关系 ”数据 列表 。 这 个 列表 的 元 素 是 成 对 的 id: 


friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), 
(4; 5), (5 6), (5 7), (6 8); (7, 8): (8, 9)] 


比如 说 ,元 组 (0，1) 表示 id 为 0 的 数据 科学 家 Hero 和 id 为 1 的 数据 科学 家 Dunn 是 朋 
友 。 这 种 网 络 关 系 可 以 用 图 1-1 来 描述 。 

















1-1: DataSciencester 网 络 











我 们 使 用 字典 结构 dict 表示 用 户 ， 因 而 可 以 方便 地 添加 更 多 数据 。 














目前 不 要 纠结 代码 细节 ， 我 们 会 在 第 2 章 指导 你 快速 学 习 Python。 现 在 你 只 
需要 大 致 了 解 代码 的 功能 。 


























比如 ， 如 果 我 们 希望 对 每 个 用 户 增加 一 个 朋友 列表 , 首先 需要 对 每 个 用 户 创建 一 个 空 列表 : 





for user in users: 
user["friends"] = [] 


再 用 friendships 数据 填充 : 


for i, j in friendships: 
# 这 能 起 作用 是 因为 users[i] 是 id 为 i 的 用 户 
users[i]["friends"].append(users[j]) # 把 i 加 为 的 朋友 
users[j]["friends"].append(users[i]) # 把 j 加 为 i 的 朋友 
完成 之 后 ， 每 个 用 户 的 dict 都 会 包含 一 个 朋友 列表 ， 进 而 可 以 深入 地 研究 朋友 网 络 关 系 ， 
比如 提问 “平均 的 联系 数 是 多 少 ”( 即 每 位 用 户 平均 拥有 几 位 朋友 )。 


首先 计算 出 全 部 的 联系 数 ， 这 需要 对 所 有 用 户 的 friends 列表 的 长 度 求 和 : 




















def number_of_friends(user): 
"""how many friends does _user_have?""" 
return len(user["friends"]) # 列表 friend_ids 的 长 度 


total_connections = Sum(number_of _ friends(user) 
for User in Users) # 24 


然后 ， 将 它 除 以 用 户 个 数 : 





from __ future__ import division # 整数 除法 需要 导入 
num_users = len(users) # 列表 users 的 长 度 
avg_Connections = total_connections / num users #2.4 





这 样 就 很 容易 看 出 ， 拥 有 最 多 联系 的 人 就 是 拥有 最 多 朋友 数目 的 人 。 
因为 用 户 不 多 ， 所 以 能 很 方便 地 按照 朋友 数 的 多 少 排序 : 





# 创建 一 个 列表 (user_id, number_of_friends) 
num_friends_by_id = [(user["id"], number_of_friends(user)) 
for user in users] 


sorted(num_friends_by_id, # 把 它 按照 
key=Lambda (user_id, num friends): num_ friends, # num_ friends 
reverse=True) # 从 最 大 到 最 小 排序 


# 每 一 对 都 是 (user_id, num_friends) 
# [Cl 3) (25 3),. (35 3) (5 3)5.(85 3); 
# (0, 2), (4, 2), (6, 2), (7, 2), (9, 1)] 


可 将 以 上 行为 视 为 一 种 识别 谁 处 在 人 际 网 络 中 心 的 方法 。 事 实 上 ， 以 上 计算 的 是 度 中 心 
性 ， 是 一 种 网 络 度量 ， 如 图 1-2 所 示 。 

















1-2: 利用 度 计算 DataSciencester 的 网 络 大 小 


度 中 心性 简单 易 算 ， 但 不 能 总 如 你 所 愿 。 比 如 ， 在 DataSciencester 的 网 络 中 ，Thor (id 为 
4) 只 有 两 个 联系 数 ，Dunn (id 为 1) 有 三 个 。 从 网 络 关 系 图 中 看 ， 直 观 上 感觉 Thor 处 于 
中 心地 位 。 第 21 章 将 考察 网 络 关系 的 更 多 细节 ， 探 讨 更 多 关于 中 心性 的 复杂 概念 ， 它 们 
可 能 与 直觉 一 致 ， 也 可 能 不 一 致 。 


1.3.2 ”你 可 能 知道 的 数据 科学 家 
当 你 正在 填写 新 员工 入 职 表 格 时 ， 人 力 部门 的 副 总 来 到 你 桌 旁 。 她 想 鼓励 数据 科学 家 们 多 
多 联系 ， 因 而 希望 你 设计 一 个 “你 可 能 知道 的 数据 科学 家 ”的 提示 函数 。 


























你 的 直觉 是 用 户 可 能 会 认识 朋友 的 朋友 。 这 不 难 计算 : 对 某 个 用 户 ， 依 次 计算 每 个 朋友 的 
朋友 ， 最 后 合并 结果 : 





def friends_of_friend_ids_bad(user): 
# foaf 是 “朋友 的 朋友 ”的 英文 简写 
return [foaf["id"] 
for friend in user["friends"] ，# 对 每 一 位 用 户 的 朋友 
for foaf ;in friend["friends"]] # 得 到 他 们 的 朋友 





当 我 们 对 users[9] (Hero) 调用 上 面 这 个 函数 时 ， 它 的 结果 显示 为 : 


[0， 2 3 0， bi 3] 

















因为 Hero 是 他 两 位 朋友 的 朋友 ， 所 以 结果 中 包含 两 次 用 户 0。 同 时 ， 因 为 用 户 1 和 用 户 
2 都 是 Hero 的 朋友 ， 所 以 也 包含 在 结果 中 。 此 外 ， 由 于 用 户 Chi 可 以 通过 用 户 1 和 用 户 2 
与 用 户 0 联系， 所 以 包含 了 他 两 次 : 





print [friend["id"] for friend in users[0]["friends"]] # [1, 2] 
print [friend["id"] for friend in users[1]["friends"]] # [0, 2, 3] 
print [friend["id"] for friend in users[2]["friends"]] # [0, 1, 3] 


有 趣 的 是 ， 人 们 可 以 通过 朋友 的 朋友 相互 认识 。 受 此 启发 ， 我 们 也 许可 以 设计 一 个 共同 的 
朋友 ， 由 他 来 表示 朋友 的 计数 。 同 时 ， 为 了 排除 那些 已 经 成 为 朋友 的 用 户 ， 我 们 需要 设计 
一 个 辅助 函数 来 实现 这 个 功能 





from collections import Counter # 驮 认 未 加 载 


def not_the_same(user, other_user): 
"""two users are not the same if they have different ids""" 
return user["id"] != other_user["id"] 


def not_friends(user, other_user): 
"""other_user is not a friend if he's not in user["friends"]; 
that is, if he's not_the_same as all the people in user["friends"]""" 
return all(not_ the_same(friend, other_user) 
for friend in user["friends"]) 


def friends_of_friend_ids(user): 
return Counter(foaf["id"] 
for friend in user["friends"] # 对 我 的 每 一 位 朋友 
for foaf ;in friend["friends"]  # 计数 他 们 的 朋友 
if not_the_same(user, foaf) # 既 不 是 我 
and not_friends(user, foaf)) # 也 不 是 我 的 朋友 


print friends_of_friend_ids(users[3]) # Counter({0: 2, 5: 1}) 





这 个 输出 结果 正确 无 误 地 说 明了 Chi (id 为 3) 和 Hero (id 为 0) 有 两 个 共同 的 朋友 ， 和 
Clive (id 为 5) 有 一 个 共同 的 朋友 。 


出 于 一 个 数据 科学 家 的 直觉 ， 你 可 能 会 喜欢 结交 有 共同 兴趣 的 人 (这 个 例子 很 好 地 展示 了 
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数据 科学 家 的 专业 技能 )。 咨 询 之 后 ， 你 设计 出 如 下 列表 ， 每 个 元 素 都 是 成 对 数据 (user_ 


id，interest) : 


interests = [ 
(0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"), 
(0, "Spark"), (0, "Storm"), (0, "Cassandra"), 
(1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"), 
(1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"), 
(2, "Numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"), 
(3, "statistics"), (3, "regression"), (3, "probability"), 
(4, "machine learning"), (4, "regression"), (4, "decision trees"), 
(4, "Llibsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"), 
(5, "Haskell"), (5, "programming languages"), (6, "statistics"), 
(6, "probability"), (6, "mathematics"), (6, "theory"), 
(7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"), 
(7, "neural networks"), (8, "neural networks"), (8, "deep learning"), 
(8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"), 
(9, "Java"), (9, "MapReduce"), (9, "Big Data") 
] 


例如 ，Thor (id 为 4) 与 Devin (id 为 7) 没有 共同 的 朋友 ， 但 他 们 对 机 器 学 习 都 感 兴 
如 果 需 要 找 出 对 某 种 事物 有 共同 爱好 的 用 户 ， 很 容易 设计 出 相应 的 函数 ; 


def data_scientists_who_Like(target_interest) : 
return [user_id 
for user_id, user_interest in interests 
if user_interest == target_interest] 

















但 是 ， 上 面 的 算法 每 次 搜索 都 需要 遍历 整个 兴趣 列表 ， 如 果 用 户 很 多 或 者 用 户 的 兴趣 很 
多 (或 我 们 只 是 想 多 进行 一 些 查 找 )， 这 种 算法 的 时 间 和 空间 成 本 会 很 大 ， 因 此 最 好 能 
建立 一 个 从 兴趣 到 用 户 的 索引 直接 搜索 : 








from collections import defaultdict 


# 键 是 interest, 值 是 带 有 这 个 interest 的 user_id 的 列表 
user_ids_by_interest = defaultdict(list) 


for user_id, interest in interests: 
user_ids_by_interest[interest].append(user_id) 


以 及 另 一 个 从 用 户 到 兴趣 的 索引 : 
# 键 是 user_id, 值 是 对 那些 user_id 的 interest 的 列表 
interests_by_user_id = defaultdict(list) 


for user_id, interest in interests: 
interests_by_user_id[user_id].append(interest) 


现在 ， 给 定 一 个 用 户 ， 可 以 方便 地 找到 与 他 共同 爱好 最 多 的 用 户 : 


。 友人 代 这 个 用 户 的 兴趣 ， 




















。 针对 这 个 用 户 的 每 一 种 兴趣 ， 寻 找 这 种 兴趣 的 其 他 用 户 ， 并 友 代 ， 
。 记录 每 一 个 用 户 在 循环 中 出 现 的 次 数 。 





def most_common_interests_with(user ) : 
return Counter(interested_uUser_id 
for interest in interests_by_user_id[user["id"]] 
for interested_user_id in User_ids_by_interest[interest] 
if interested user_id != user["id"]) 


接 下 来 ， 结 合共 同 的 朋友 和 共同 的 兴趣 ， 可 以 建立 一 个 更 丰富 的 功能 “你 应 该 知道 的 数据 
科学 家 ”， 这 类 应 用 我 们 将 在 第 22 章 探讨 。 





1.3.3 工资 与 工作 年 限 

当 你 正 准备 去 吃 午 饭 时 ， 公 共 关 系 部 门 的 副 总 突然 来 到 你 的 办 公 室 ， 问 你 能 不 能 给 他 提 
供 一 些 关 于 数据 科学 家 的 收入 的 有 趣 数据 。 当 然 ， 大 家 对 工资 数据 都 很 敏感 ， 他 想 办 法 
搞 出 了 一 份 匿名 文件 ， 其 中 包含 每 位 用 户 的 工资 (salary) 和 作为 数据 科学 家 的 工作 年 限 


(tenure) : 














salaries_and_tenures = [(83000, 8.7), (88000, 8.1), 
(48000, 0.7), (76000, 6), 
(69000, 6.5), (76000, 7.5), 
(60000, 2.5), (83000, 10), 
(48000, 1.9), (63000, 4.2)] 


很 自然 地 ， 第 一 步 是 绘制 数据 (第 3 章 有 详细 介绍 )， 如 图 1-3 所 示 。 
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1-3: 基于 工作 年 限 的 工资 图 
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图 中 所 示 的 关系 很 明显 ， 工 作 年 限 越 长 的 人 收入 越 高 。 接 下 来 需要 考虑 的 是 如 何 将 这 个 结 
有 果 转 化 成 更 有 趣 的 事实 。 你 首先 想到 了 考察 一 下 大 家 的 年 均 收入 : 





# 键 是 year , 值 是 对 每 一 个 tenure 的 salary 的 列表 
salary_by_tenure = defaultdict(list) 


for salary, tenure in salaries_and_tenures: 
salary_by_tenure[tenure].append(salary) 


# 键 是 year ,每 个 值 是 相应 tenure 的 平均 salary 
average_salary_by_ tenure = { 

tenure : sum(salaries) / len(salaries) 

for tenure, salaries in salary_by_tenure.items() 





} 


实际 上 ， 任 何 两 个 用 户 都 没有 相同 的 工作 年 限 ， 所 以 上 述 计算 结果 作用 有 限 ， 它 仅仅 说 明 


了 每 个 用 户 独立 的 收入 : 
{0.7: 48600.0， 

1.9: 48000.0， 

2.5: 60000.0， 

4.2: 63000.0， 

6: 76000.0， 

6.5: 69000.0， 

7 

8 

8 

1 


NmNGO AVI 


.5: 76000.0， 
.1: 88000.0， 
.7: 83000.0， 
0: 83000.0} 





个 更 有 意义 的 计算 方式 是 把 用 户 的 工作 年 限 分 组 : 


def tenure_bucket(tenure ) : 
if tenure < 2: 
return "less than two" 
elif tenure < 5: 
return "between two and five" 
else: 
return "more than five" 


再 将 每 组 的 工资 合并 : 


# 键 是 tenure bucket, 值 是 相应 bucket 的 salary 的 列表 
salary_by_tenure_bucket = defaultdict(list) 


for salary, tenure in salaries_and_tenures: 


bucket = tenure_bucket(tenure) 
salary_by_tenure_bucket[bucket].append(salary) 


最 后 ， 计 算 每 个 分 组 的 平均 工资 : 


# 键 是 tenure bucket, 值 是 对 那个 bucket 的 average salary 
average_salary_by_bucket = { 





tenure_bucket : sum(salaries) / len(salaries) 
for tenure_bucket, salaries in salary_by_tenure_bucket.iteritems() 


} 
这 是 更 有 趣 的 结果 : 
{'between two and five': 61500.0， 


"Less than two': 48000.0， 
"more than five': 79166.66666666667} 





现在 ， 你 得 到 结论 :“ 有 5 年 以 上 工作 年 限 的 数据 科学 家 比 同 行 新 人 的 收入 高 65% 。 


但 是 ， 我 们 的 选择 是 任意 的 。 我 们 原本 希望 说 明 的 是 ， 平 均 看 来 ， 更 多 的 工作 年 限 意味 着 
更 多 的 工资 收入 。 为 了 得 到 更 多 有 趣 的 结论 ， 我 们 可 以 预测 一 些 未 知 年 限 的 工资 。 我 们 将 
在 第 14 章 探 讨 这 个 想法 。 


1.3.4 ”付费 账户 
当 你 回 到 桌 旁 时 ， 收 益 部 门 的 副 总 在 等 你 。 他 想 更 好 地 了 解 哪些 用 户 会 为 账户 付费 ， 哪 些 
用 户 不 会 。( 他 知道 他 们 的 名 字 ， 但 这 些 信息 不 是 特别 有 用 。) 





你 注意 到 在 工作 年 限 和 付费 账户 之 间 似 乎 存在 一 种 对 应 关系 : 


paid 
unpaid 
paid 
unpaid 
unpaid 
unpaid 
unpaid 
unpaid 
paid 
paid 


Duo 


PO 
APPUuuu 


© 


那些 新 手 和 资历 很 深 的 用 户 倾向 于 付费 ， 而 那些 具有 中 等 工作 年 限 的 用 户 则 倾向 于 不 付费 。 


由 此 ， 如 果 你 打算 创建 一 个 模型 一 一 尽管 这 点 数据 对 创建 模型 表 定 是 不 够 的 
对 新 手 和 资深 用 户 预测 “付费 "， 而 对 具有 中 等 工作 年 限 的 用 户 预测 “不 付费 ”: 








你 会 试图 














def predict paid_or_unpaid(years_experience): 
if years_experience < 3.0: 
return "paid" 
elif years_experience < 8.5: 
return "unpaid" 
else: 
return "paid" 


当然 ， 我 们 会 完全 紧 盯 这 个 切入 





也 








利用 更 多 的 数据 (和 更 多 的 数学 计算 )， 我 们 可 以 基于 用 户 的 工作 年 限 来 预测 用 户 付费 的 


可 能 性 。 我 们 会 在 第 16 章 研究 这 类 问题 。 


1.3.5 ”兴趣 主题 








当 你 正 准 备 结束 第 一 天 的 工作 时 ， 内 容 策略 部 门 的 副 总 来 向 你 要 数据 ， 想 了 解 什 么 样 的 


主题 更 令 用 户 感 兴趣 ， 以 便 据 此 规划 他 的 博客 日 历 。 你 已 经 有 了 来 自 友 邻 推荐 项 目的 原 


始 数据 : 


interests = [ 
(0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"), 
(0, "Spark"), (0, "Storm"), (0, "Cassandra"), 
(1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"), 
(1, "Postgres"), (2, "Python"), (2, "scikit-learn"), (2, "scipy"), 
(2, "numpy"), (2, "statsmodels"), (2, "pandas"), (3, "R"), (3, "Python"), 
(3, "statistics"), (3, "regression"), (3, "probability"), 
(4, "machine learning"), (4, "regression"), (4, "decision trees"), 
(4, "libsvm"), (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"), 
(5, "Haskell"), (5, "programming languages"), (6, "statistics"), 
(6, "probability"), (6, "mathematics"), (6, "theory"), 
(7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"), 
(7, "neural networks"), (8, "neural networks"), (8, "deep learning"), 
(8, "Big Data"), (8, "artificial intelligence"), (9, "Hadoop"), 
(9, "Java"), (9, "MapReduce"), (9, "Big Data") 
] 


一 种 简单 (但 并 不 激动 人 心 ) 的 方法 是 仅仅 数 一 下 兴趣 词汇 的 个 数 : 











1. 小 写 每 一 种 兴趣 〈 因 为 不 同 的 用 户 不 一 定 会 大 写 他 们 的 兴趣 ) ， 
2. 把 它 划 分 为 单词 ， 


3. 数 一 数 结果 。 
用 下 面 的 代码 : 


words_and_counts = Counter(word 
for user, interest in interests 
for word in interest.Tlower().split()) 





列 出 出 现 一 次 以 上 的 词汇 是 很 容易 的 : 


for word, count in words_and_counts.most_common(): 
if count > 1: 
print word, count 





这 给 出 了 你 所 期 待 的 结果 (除非 你 想 让 “scikit-learn” 分 化 成 两 个 词 ， 那 样 就 不 会 得 到 预 


期 的 结果 了 ) : 


learning 3 
java 3 





python 3 

big 3 

data 3 

hbase 2 
regression 2 
Cassandra 2 
statistics 2 
probability 2 
hadoop 2 
networks 2 
machine 2 
neural 2 
scikit-learn 2 
户 这 


我 们 会 在 第 20 章 学 习 更 多 从 数据 中 提取 主题 的 复杂 方法 。 


1.4 展望 


第 一 天 的 工作 非常 成 功 ! 你 肯定 很 累 ， 赶 快 趁 没 人 继续 问 问题 时 回 家 吧 。 明 天 是 新 员工 培 
训 ， 所 以 今 晚 好 好 休息 一 下 。( 当 然 啦 ， 你 还 设 接 受 培训 就 已 经 工作 一 整 天 了 ! 明天 去 找 
HR 吧 。) 
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难以 置信 ，25 年 以 来 Python 始终 广 受 追捧 。 
一 一 迈克尔 : 佩 林 
DataSciencester 要 求 所 有 新 员工 接受 入 职 培 训 ， 其 中 最 有 趣 的 部 分 当 属 Python 速成 。 











本 章 不 是 完整 的 Python 培训 教程 ， 而 仅 强 调 其 中 对 我 们 最 重要 的 部 分 (其 中 有 些 部 分 并 非 
Python 培训 教程 的 重点 )。 


2.1 基础 内 容 


2.1.1 Python 获取 

可 以 从 python.org (https://www.python.org/) 网 站 下 载 Python。 但 是 对 于 没有 安装 过 
Python 的 读者 ， 特 别 推荐 安装 Anaconda 版 本 (https:/www.continuum.io/downloads)， 这 个 
版 本 涵盖 了 数据 科学 工作 需要 用 到 的 大 多 数 库 。 








当 我 写本 书 时 ，Python 的 最 新 版 本 是 3.4。 但 是 ， 在 DataSciencester， 我 们 使 用 一 个 旧 的 
可 靠 版 本 ，Python 2.7。Python 3 无 法 向 后 兼容 Python 2， 因 此 很 多 重要 功能 只 能 在 Python 
2.7 上 良好 运行 。 数 据 科 学 社区 中 ，2.7 版 本 一 直 是 主流 ， 我 们 也 和 它 保 持 一 致 。 请 设法 安 
装 这 个 版 本 。 











如 果 你 没有 Anaconda 版 本 ， 那 么 需要 安装 pip (https:/Wpypi.python.org/pypi/pip) ， 这 是 一 
个 Python 包 管 理 器 ， 可 以 用 来 方便 地 安装 第 三 方 包 (其 中 有 些 是 我 们 必需 的 )。IPython 
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(http://ipython.org/) 也 不 错 ， 操 作 界 面 更 友好 。 


(如 果 你 已 经 安装 了 Anaconda 版 本 ， 它 会 很 好 地 和 pip 与 Python 兼 





。) 


蝶 





2 


运行 : 
pip install ipython 


如 果 碰 到 难 解 的 错误 信息 ， 可 以 在 网 上 搜索 解决 办 法 。 





2.1.2 ”Python 之 禅 


Python 的 设计 原则 (http://legacy.python.org/dev/peps/pep-0020/) 有 着 禅宗 的 意味 ， 你 输入 
import this 就 能 在 Python 解释 器 中 一 宕 玄机 。 





讨论 最 多 的 原则 之 一 是 ; 
按照 这 种 “明显 ”的 方式 (对 一 个 新 人 来 说 可 能 根本 不 明显 ) 编写 的 代码 常常 被 称 为 具有 
“Python 风格 ”。 尽 管 本 书 不 是 专门 介绍 Python 的 书 ， 但 我 们 时 不 时 地 会 比较 Python 风格 


和 非 Python 风格 的 方式 在 解决 相同 问题 时 的 差异 ， 而 且 你 常常 会 发 现 Python 风格 是 更 好 
的 解决 方式 。 











2.1.3 空白 形式 
许多 编程 语言 用 大 括号 分 隔 代 码 块 。Python 使 用 缩 进 的 方式 





for i in [1, 2, 3, 4, 5]: 


print i # "for i" 程 序 块 的 第 一 行 
for j in [1, 2, 3, 4, 5]: 
print j # "for j" 程 序 块 的 第 一 行 
print i + j # "for j" 程 序 块 的 最 后 一 行 
print i # "for i" 程 序 块 的 最 后 一 行 


print "done looping" 


样 会 使 Python 代码 非常 易 读 ， 但 这 也 意味 着 你 需要 非常 小 心 格式 。 系 统 会 省 略 方 括号 和 
括号 中 的 空白 ， 这 对 元 长 的 计算 非常 有 用 : 





加 讨 : 





long winded computation = (1+ 2 +3+4+5+6+7+8+9+10+11+12+ 
13+14+15+16+17+18+19+20) 


并 能 使 代码 更 易 读 : 
List of. Lists 三 [和 3 3]s [4 5 6ls. [7;, B91] 


easier_to_read_list of lists = [ [1, 2, 3], 
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[4， By 6] ， 
[7, 8, 9] ] 


你 可 以 用 反 斜 线 代 表 一 个 语句 在 下 一 行 续 写 ， 尽 管 这 个 例子 并 不 常见 : 


two_plus three =2+\ 
3 











空白 形式 的 一 个 后 果 是 很 难 将 代码 复制 并 粘贴 到 Python 的 shell。 比 如 ， 如 果 你 粘贴 代码 : 





for i in [1, 2, 3, 4, 5]: 


# 注意 这 个 空 行 
print i 


在 粘贴 入 一 般 的 Python shell 后 ， 会 得 到 以 下 提示 : 





IndentationError: expected an indented block 
因为 解释 器 认为 空 行 表 示 for 循环 的 终结 。 
IPython 有 一 个 奇妙 的 函数 %paste， 可 以 正确 地 复制 剪贴 板 上 的 内 容 ， 包 括 空 白 在 内 。 这 
个 函数 足以 成 为 选择 使 用 IPython 的 好 理由 。 


2.1.4 模块 
Python 的 某 些 特征 默认 不 加 载 ， 包 含 了 语言 本 身 的 部 分 特征 ， 也 包含 了 需 读者 自行 下 载 的 
第 三 方 特征 。 为 了 使 用 这 些 特征 ， 你 需要 导入 包含 这 些 特征 的 模块 。 


一 种 方式 是 简单 地 导入 模块 本 身 ; 


























import re 
my_regex = re.compile("[0-9]+", re.1) 


这 里 的 re 代表 包含 了 处 理 正则 表达 式 需 要 的 函数 与 常量 的 模块 。 输 入 import 之 后 ， 你 可 
以 通过 加 前 级 re. 来 直接 调用 模块 中 的 函数 。 


如 果 你 的 代码 中 已 经 有 了 不 同 的 re， 可 以 使 用 别名 : 








import re as regex 
my_regex = regex.compile("[0-9]+", regex.I1) 


如 果 模 块 名 元 长 ， 或 者 你 需要 敲 很 多 字符 ， 那 不 妨 试 试 这 个 方法 。 比 如 ， 你 想 对 数据 用 模 
块 matplotlib 来 进行 可 视 化 ， 标 准 转 换 如 下 : 


import matplotlib.pyplot as plt 


如 果 你 需要 一 个 模块 中 的 一 些 特定 值 ， 可 以 显 式 导入 ， 直 接 使 用 ， 不 必 提 前 获取 权限 ， 如 
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下 所 示 : 


from collections import defaultdict, Counter 
lookup = defaultdict(int) 
my_counter = Counter() 


如 有 果 你 是 破坏 者 ， 可 以 将 模块 的 全 部 内 容 导 入 命名 空间 ， 这 也 许 会 不 加 提示 地 覆盖 原先 定 
义 的 变量 : 





加 


match = 
from re Import * # 呢 ,re 有 一 个 match 国 数 
print match # "<function re.match>" 


但 是 ， 不 是 破坏 者 就 别 这 样 做 。 


2.1.5 算法 
Python 2.7 默认 整除 ， 因 此 5 / 2 等 于 2。 但 是 这 并 不 总 是 我 们 想 要 的 ， 因 此 文件 常常 需要 
这 样 开始 : 








from __future__ import division 


这 样 5 / 2 等 于 2.5。 本 书 中 的 所 有 示例 程序 采用 新 除法 。 在 少数 需要 整除 的 情形 下 ， 我 
们 可 以 通过 双 和 斜 线 5 // 2 表示 。 


1.6 函数 
数 是 一 种 规则 ， 输 入 零 或 者 其 他 数 ， 得 到 相应 的 输出 。 在 Python 中 ， 我 们 用 def 定义 


def double(x): 
"""this is where you put an optional docstring 
that explains what the function does. 
for example, this function multiplies its input by 2""" 
return Xx* 2 


Python 国 数 是 第 一 类 函数 ， 第 一 类 国 数 意味 着 可 以 将 它们 赋 给 其 他 变量 ， 也 可 以 像 其 他 参 
数 一 样 传递 给 函数 : 
def apply_to_one(f): 


"""calls the function f with 1 as its argument 
return f(1) 


mmm 


my_double = double # 指向 之 前 定义 的 函数 
x = apply_to_one(my_double) # 等 于 2 


也 很 容易 生成 简短 的 匿名 函数 ， 或 者 lambda: 








y = apply_to_one(lambda x: x + 4) 


你 可 以 将 lambda 赋 给 变量 





， 尽 管 大 部 分 人 会 建议 你 用 def: 


another_double = Lambda x: 2 * x 
def another_doubLe(x): return 2 * x 


# 等 于 5 





# 别 这 么 做 
# 要 这 么 做 


默认 参数 也 可 以 赋值 给 函数 参数 ， 当 你 需要 默认 值 以 外 的 值 时 需要 具体 说 明 : 


def my_print(message="my default message"): 


print message 
my_print("hello") 


my_print() 


# 打印 "hetto" 


# 打印 "my defauLt message" 


有 时候 通过 名 字 指 定 参数 会 有 用 : 


def subtract(a=0, b=0): 


returna-b 





可 5 





Subtract(10，5) # 返 








Subtract(0，5) # 返 





可 -5 





subtract(b=5) “ # 和 前 一 名 一 样 


我 们 可 以 生成 很 多 很 多 函数 。 


2.1.7 ”字符 串 


字符 串 可 以 用 单 引 号 或 者 双 引 号 标注 分 隔 出 来 〈 但 引号 需要 配对 ， 即 单 引 号 对 单 引 号 ， 双 


引号 对 双 引 号 ) : 


stingtLe_quoted_string 
double_quoted_string 


'data science' 
"data science" 


Python 用 反 斜 线 来 为 特殊 字符 编码 。 比 如 : 


tab_string = "\t" 
len(tab_string) 








# 表示 tab 字 符 
# 是 1 











如 果 你 希望 反 斜 线 仅仅 代表 反 斜 线 本 身 (你 在 Windows 系统 中 的 文件 夹 或 者 正则 表达 式 中 


也 许 会 遇 到 ) ， 那 么 可 以 使 用 命令 r”"" 生成 一 个 原始 的 字符 串 : 


not_tab_string = r"\t" 


len(not_tab_string) 


# 是 2 


# 表示 字符 '\' 和 't' 


你 可 以 通过 三 重 [两 重 ] 引号 来 生成 多 行 的 字符 串 : 


muLti_Line_string = """This is the first line. 
and this is the second line 
and this is the third line""" 
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2.1.8 ”异常 
当 发 生意 外 时 ，Python 
except 来 解决 : 


try: 
print 0 / 0 


























会 报 出 异常 。 如 果 不 处 理 ， 异 常会 引起 程序 骨 涡 。 你 可 以 用 try 和 


except ZeroDivisionError: 
print "cannot divide by zero" 








在 许多 语言 中 ， 异 常 意 
晰 的 代码 ， 我 们 时 而 会 


2.1.9 列表 





Python 中 最 基本 的 数据 结构 是 列表 (list)。 


味 着 坏 情形 。 


这 样 做 。 





但 在 Python 中 ， 你 不 必 害 怕 遇 见 异 常 





中 的 数组 概念 类 似 ， 但 增加 函数 功能 。) 


integer_list = [1, 


27 3] 


heterogeneous list = ["string", 0.1, True] 
list of_ lists = [ integer_list, heterogeneous_list, [] ] 


list_length 
list_sum 


len(integer_list) 
sum(integer_list) 


# 等 于 3 
# 等 于 6 


你 可 以 通过 方 括 号 对 列表 的 第 n 个 元 素 读 值 和 赋值 : 








一 个 列表 是 一 














9] 


x = range(10)  # 是 列表 [06，1， | 
zero = x[0] # 等 于 0, 列 表 是 9- 索引 的 
one = x[1] # 等 于 1 
nine = x[-1] # 等 于 9， 最 后 一 个 元 素 的 Python 惯用 法 
eight = x[-2] # 等 于 8, 倒 数 第 二 个 元 素 的 Pyhton 惯 用 法 
x[0] = -1 # 现在 x 是 [-1，1，2，3， 19] 
你 也 可 以 用 方 括号 来 “切取 ”列表 : 
first three = x[:3] # [-1, 1, 2] 
three_to_end = x[3:] 了 
one_to_four = x[1:5] # [1, 2, 3, 4] 
last_ three = x[-3:] # [7，8，9] 
without_first_and_last = x[1:-1] # [1, 2, ..., 8] 
copy_of x = x[:] #: Eads Ls 2 js 
Python 可 以 通过 操作 符 in 确认 列表 成 员 : 
1 in [1, 2, 3] # True 
0 in [1, 2, 3] # False 
确认 每 次 都 会 遍历 列表 元 素 。 这 意味 着 除非 列表 很 小 ， 


在 乎 确认 需要 花费 多 长 时 间 )。 


个 有 序 的 集合 。 


， 只 要 能 写 出 清 


(这 和 其 他 语言 


否则 就 不 应 该 进行 确认 (除非 你 不 
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将 列表 串 连 起 来 很 容易 : 


人 | 
Xx.extend([4，5，6])  # x 现在 是 [1,2,3,4,5,6] 


如 果 不 希 望 改变 原 序列 x， 你 可 以 使 用 列表 加 法 : 





x 
y 


更 常见 的 做 法 是 ， 一 次 在 原 列表 上 只 增加 一 项 : 


[1, 2, 3] 
X+ [4， 5， 6] # y 是 [1， 2， 3， 4， 5， 6];x 是 不 变 的 





| 

x.append(0) # x 现 在 是 [1，2，3，0] 
y = x[-1] # 等 于 0 

z = len(x) # 等 于 4 





如 果 你 知道 列表 中 元 素 的 个 数 ， 可 以 方便 地 从 中 提取 值 : 











xX, = Lt; 2] # 现在 x 是 1,y 是 2 
不 过 ， 如 果 等 式 两 端 元 素 个 数 不 同 ， 会 报 出 提示 ValueError。 
如 果 你 希望 忽略 某 些 值 ， 和 常见 的 选择 是 使 用 下 划 线 : 


_，y= [1, 2]  # 现在 y==2, 不 用 关心 第 一 个 元 素 是 什么 








2.1.10 ”元 组 


元 组 是 列表 的 亲 表 哥 。 你 对 列表 做 的 很 多 操作 都 可 以 对 元 组 做 ， 但 不 包括 修改 。 元 组 通过 
圆 括号 〈 或 者 什么 都 不 加 ) 而 不 是 方 括号 来 给 出 具体 的 描述 : 





my_list = [1, 2] 

my_tuple = (1, 2) 

other_tuple = 3, 4 

my_list[1] = 3 # my_list 现 在 是 [1，3] 


try: 
my_tuple[1] = 3 
except TypeError: 
print "cannot modify a tuple" 


元 组 是 通过 函数 返回 多 重 值 的 便捷 方法 : 





def sum_and_product(x, y): 
return (x + y),(x * y) 


sp = sum_and_product(2, 3) # 等 于 (5,6) 
s, p = sum_and_product(5，10) # s 是 15,p 是 50 
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元 组 (和 列表 ) 都 可 以 进行 多 重 赋值 (multiple assignment) : 


1, 2 # 现在 x 是 1,y 是 2 
y，x ”# Python 风格 的 互 换 变量 ,现在 x 是 2,y 是 1 


x 一 
xX, = 


3 y 
y 


2.1.11 字典 


Python 中 的 另 一 种 基本 数据 结构 是 字典 ， 它 将 值 与 键 联 系 起 来 ， 让 我 们 可 以 通过 键 快速 找 
到 对 应 值 : 





empty_dict = {} # Python 风格 
empty_dict2 = dict() # 更 少 的 Python 风格 
grades = { "Joel" : 80, "Tim" : 95 } # 字典 

你 也 可 以 通过 方 括号 查找 键 的 值 : 


joels_grade = grades["Joel"] # 等 于 80 


如 有 果 你 找 的 键 不 在 字典 中 ， 会 得 到 KeyError 报错 : 





try : 

kates_grade = grades["Kate"] 
except KeyError : 

print "no grade for Kate!" 


你 可 以 用 in 确认 键 的 存在 : 


"Joel" in grades # 正确 
"Kate" in grades # 错误 


joel_has_grade 
kate_has_grade 





如 果 查 找 的 键 在 字典 中 不 存在 ， 字 典 可 以 通过 方法 get 返回 默认 值 (而 非 报 出 异常 ) : 





joels_grade = grades.get("Joel", 0) # 
kates_grade = grades.get("Kate", 0) # 等 于 0 
no_ones_grade = grades.get("No One") # 默认 的 默认 值 为 None 


你 可 以 通过 方 括号 来 为 键 值 对 赋值 : 
grades["Tim"] = 99 禁 换 了 旧 的 值 


grades["Kate"] = 100 增加 了 第 三 个 记录 
num_students = len(grades) # 等 于 3 


亲 














亲 


我 们 常常 使 用 字典 作为 代表 结构 数据 的 简单 方式 : 


tweet = { 

"user" : "joelgrus", 

"text" : "Data Science is Awesome", 

"retweet_count" : 100, 

"hashtags" : ["#data", "#science", "#datascience", "#awesome", "#yolo"] 
} 








除了 查找 特定 的 键 ， 我 们 还 可 以 查找 所 有 值 : 











tweet keys = tweet.keys() # 键 的 列表 
tweet_values = tweet.values() # 值 的 列表 
tweet items = tweet.items() # ( 键 ， 值 ) 元 组 的 列表 






































"user" in tweet_keys # True, 使 用 慢 速 的 列表 
"user" in tweet # 更 符合 Python 惯用 法 ,使 用 快速 的 字典 
"joelgrus" in tweet values # True 














字典 的 键 不 可 改变 ， 尤 其 是 不 能 将 列表 作为 键 。 如 果 你 需要 一 个 多 维 的 键 ， 应 该 使 用 元 组 
或 设法 把 键 转换 成 字符 串 。 


1. defaultdict 

假设 你 需要 计算 某 份 文件 中 的 单词 数目 。 一 个 明显 的 方式 是 ， 建 立 一 个 键 是 单词 、 值 是 单 
词 出 现 次 数 的 字典 。 每 次 你 查 到 一 个 单词 ， 如 果 字 典 中 存在 这 个 词 ， 就 在 该 词 的 计数 上 增 
加 1， 如 果 字 典 中 没有 这 个 词 ， 就 把 这 个 词 增加 到 这 个 字典 中 : 








word_counts = {} 
for word in document: 
if word in word_counts: 
word_counts[word] += 1 
else: 
word_counts[word] = 1 




















当 查 找 缺 失 值 碰 到 异常 报 出 时 ， 你 可 以 遵循 “与 其 瞻 前 顾 后 ， 不 如 果断 行动 ”(EForgiveness 
is better than permission) 的 原则 ， 果 上 断 处 理 异 常 : 





word_counts = {} 
for word in document: 
try: 
word_counts[word] += 1 
except KeyError: 
word_counts[word] = 1 


第 三 种 方法 是 使 用 get， 这 种 处 理 缺 失 值 的 方法 比较 优雅 : 


word_counts = {} 

for word in document: 
previous_count = word_counts.get(word, 0) 
word_counts[word] = previous count + 1 


以 上 三 种 方法 都 略 显 箱 抽 ， 这 是 defaultdict 的 意义 之 所 在 。 一 个 defaultdict 相当 于 一 
个 标准 的 字典 ， 除 了 当 你 查找 一 个 没有 包含 在 内 的 键 时 ， 它 用 一 个 你 提供 的 零 参数 函数 建 
立 一 个 新 的 键 ， 并 为 它 的 值 增加 1。 为 了 使 用 defaultdict， 你 需要 将 其 从 集合 中 导出 : 











from collections import defaultdict 


word_counts = defaultdict(int) # int() 生 成 9 
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for word in document : 
word_counts[word] += 1 


这 对 列表 、 字 典 或 者 你 自己 的 函数 都 有 用 : 





dd_list = defaultdict(list) # list() 生 成 一 个 空 列表 
dd_list[2].append(1) # 现在 dd_List 包 含 {2:[1]} 

dd_dict = defaultdict(dict) # dict() 产 生 一 个 新 字典 
dd_dict["Joel"]["City"] = "Seattle" # { "Joel" : { "City" : Seattle"}} 


dd_pair = defauLtdict(Lambda: [0, 0]) 
dd_pair[2][1] = 1 # 现在 dd_pair 包 含 {2: [0,1]} 


当 我 们 用 字典 “收集 ” 某 些 键 对 应 的 结果 ， 并 且 不 希望 每 次 查找 某 键 是 否 存在 都 遍历 一 遍 
的 时 候 ，defaultdict 非常 有 用 。 





2. Counter 
一 个 计数 器 将 一 个 序列 的 值 转化 成 一 个 类 似 于 整 型 的 标准 字典 ( 即 defaultdict(int)) 的 
键 到 计数 的 对 象 映射 。 我 们 主要 用 它 来 生成 直方 图 : 





from collections import Counter 
c= Counter([0, 1, 2, 0]) # c 是 (基本 的 ) {0 :2,1:1,2:1} 


这 给 我 们 提供 了 一 个 用 来 解决 单词 计数 问题 的 很 简便 的 方法 : 
word_counts = Counter(document) 

一 个 Counter 实例 带 有 的 most_common 方法 的 例子 如 下 : 
# 打印 16 个 最 常见 的 词 和 它们 的 计数 


for word, count ;in word_counts.most_common(10): 
print word, count 








2.1.12 集合 
另 一 种 数据 结构 是 集合 (set)， 它 表示 为 一 组 不 同 的 元 素 : 
s = set() 
s.add(1) # s 现 在 是 1 
s.add(2) # s 现 在 是 {1,2} 
s.add(2) # s 还 是 {1,2} 
x = len(s) # 等 于 2 
y=2ins # 等 于 True 
z=3ins # 等 于 False 

















我 们 使 用 集合 的 原因 主要 有 两 个 。 第 一 个 是 集合 上 有 一 种 非常 快速 的 操作 : in。 如果 我 们 
有 大 量 的 项 目 ， 希 望 对 它 的 成 分 进行 测试 ， 那 么 使 用 集合 比 使 用 列表 要 合适 得 多 : 








stopwords_list = ["a","an","at"] + hundreds_of_other_words + ["yet", "you"] 
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"zip" in stopwords_list # False, 但 需要 检查 每 个 元 素 


stopwords_set = set(stopwords_list) 
"zip" in stopwords_set # 韭 常 快 地 检查 


第 二 个 原因 是 便于 在 一 个 汇总 中 寻找 其 中 离散 的 项 目 





| 
Num_items = len(item list) 

item set = set(item list) 
num_distinct items = len(item set) 
distinct item list = list(item set) 


我 们 使 用 set 的 频率 要 远 低 于 dict 和 list。 


2.1.13 ”控制 流 
和 大 多 数 编程 语言 一 样 ， 你 可 以 用 if 语句 来 执行 一 种 有 条 件 的 行动 : 


if 1 > 2: 
message = "if only 1 were greater than two..." 
elif 1 > 3: 
message = "elif stands for 'else if'" 
else: 
message = "When all else fails use else (if you want to)" 


也 可 以 在 一 行 语句 中 使 用 if-then-else， 我 们 有 时 候 需 要 这 么 做 : 
parity = "even" if x % 2 == 0 else "odd" 
Python 也 有 while 循环 : 
x=0 
while x < 10: 


print x, "is less than 10" 
x += 1 


尽管 我 们 更 常用 for 和 in: 


for x in range(10): 
print x, "is less than 10" 


如 有 果 你 需要 更 复杂 的 逻辑 表达 式 ， 可 以 使 用 continue 和 break: 


for x in range(10): 








if x == 3: 

continue # 直接 进入 下 次 迭代 
if x == 5: 

break # 完全 退出 循环 
print x 
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上 面 的 语句 会 打印 9、1、2 和 4。 











2.1.14 ” 真 和 假 
Python 的 布尔 数 除了 首 字 母 大 写 之 外 ， 其 他 用 法 和 大 多 数 别 的 语言 类 似 : 





one_is_less than two =1 < 2 # 等 于 True 
true_equals_false = True == False # 等 于 FaLse 


Python 使 用 None 来 表示 一 个 不 存在 的 值 ， 它 类 似 别 的 语言 中 的 nuLL: 





x = None 
print x == None # 打印 True, 但 这 并 非 Python 的 惯用 
print x is None # 打印 True, 符 合 Python 的 惯用 法 











法 





Ee 








Python 可 以 使 用 任何 可 被 认为 是 布尔 数 的 值 。 下 面 这 些 都 是 “ 假 ”(Falsy) : 














。 False 

。 None 

。 [ ] (一 个 空 List) 
，{】 (一 个 空 dict) 
。 set() 

。 0 

。 0.0 


还 有 很 多 值 可 作为 真 (True) 来 处 理 。 这 样 你 可 以 很 容易 地 使 用 if 语句 来 对 空 列 表 、 空 字 
符 串 或 空 字典 等 进行 测试 。 有 时 候 ， 如 果 你 疫 有 意识 到 这 种 行为 ， 会 引入 一 些微 妙 的 bug: 
s = Some_function_that_returns_a_string() 
if s: 
first_char = s[0] 


else: 
first_char = "" 


另 一 种 简单 的 方法 是 : 
first_char = s and s[0] 
这 是 因为 第 一 个 值 为 “ 真 ” 时 ，and 运算 符 返 回 它 的 第 二 个 值 ， 否 则 返回 第 一 个 值 。 类 


似 地 ， 如 果 x 的 取 值 可 能 是 一 个 数 也 可 能 是 None， 那 么 以 下 代码 的 结果 就 必然 会 是 一 个 
数字 : 























safe x = x ord0 


Python 还 有 一 个 all 函数 ， 它 的 取 值 是 一 个 列表 ， 当 列表 的 每 个 元 素 都 为 真 时 返回 True。 
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Python 还 有 一 个 any 函数 ， 当 取 值 的 列表 中 至 少 有 一 个 元 素 为 真 时 ， 它 返回 True: 


all([True, 1, { 3 }]) # True 











all([True, 1, {}]) # False, 二 为 假 

any([True, 1, {}]) # True 

all([]) # True, 列 表 里 没 有 假 的 元 素 
any([]) # False, 列 表 里 没 有 真 的 元 素 








, 突 
2.2 进 阶 内 容 
现在 我 们 来 看 一 些 比 较 高 级 的 Python 特性 ， 这 些 特性 对 开展 数据 工作 特别 有 用 。 


2.2.1 排序 


每 个 Python 列表 都 有 一 个 sort 方法 可 以 恰当 地 排序 。 如 果 你 不 想 弄 乱 你 的 列表 ， 可 以 使 
用 sorted 函数 ， 它 会 返回 一 个 新 列表 : 




















X= [4,1,2;3] 
y = sorted(x) # 结果 是 [1,2,3,4], 但 x 没有 变 
x.sort() # x 变 为 [1,2,3,4] 


默认 情况 下 ，sort (和 sorted) 基于 元 素 之 间 的 朴素 比较 从 最 小 值 到 最 大 值 对 列表 进行 
排序 。 

















如 果 你 想 把 元 素 按 从 最 大 值 到 最 小 值 进行 排序 ， 可 以 指定 参数 reverse=True。 除 了 比较 元 
素 本 身 ， 你 还 可 以 通过 指定 键 来 对 函数 的 结果 进行 比较 : 

















# 通过 绝对 值 对 列表 元 素 从 最 大 到 最 小 排序 
x = sorted([-4,1,-2,3]，key=abs，reverse=True) # 是 [-4,3,-2,1] 


# 从 最 高 数 到 最 低 数 排序 单词 和 计数 

wc = sorted(word_counts.items(), 
key=Lambda (word, count): count, 
reverse=True) 


2.2.2 ”列表 解析 
我 们 有 时 可 能 会 想 把 一 个 列表 转换 为 另 一 个 列表 ， 例 如 只 保留 其 中 一 些 元 素 ， 或 更 改 其 中 
一 些 元 素 ， 或 者 同时 做 这 两 种 变动 。 可 以 执行 这 种 操作 的 Python 技巧 叫 作 列表 解析 (list 


comprehension ) : 


even_numbers = [x for x in range(5) if x % 2 == 0] # [0, 2 
squares = [x * x for x in range(5)] # [0, 1, 4, 9, 16] 
even_squares = [x * x for x in even_numbers] # [0, 4 


类 似 地 ， 你 也 可 以 把 列表 转换 为 字典 或 集合 : 





square_dict = {x : x* x for x in range(5) } 0:0, 1:1, 2:4, 3:9, 4:16} 
square_set ={x* x for x in [1, -1] } 1 } 


如 果 你 不 需要 来 自 原 列 表 中 的 值 ， 常 规 的 方式 是 使 用 下 划 线 作为 变量 : 


# { 
# { 


zeroes = [0 for _ in even_numbers] # 和 even_numbers 有 相同 的 长 度 


列表 解析 可 以 包括 多 个 for 语句 : 


pairs = [(x, y) 
for x in range(10) 
for y in range(10)] # 100 个 对 (0,0) (0,1) ... (9,8)，(9,9) 














其 中 后 面 的 for 语句 可 以 使 用 前 面 的 for 语句 的 结果 : 

















increasing_pairs = [(x, y) # 只 考虑 x < y 的 对 
for x in range(10) # range(Lo，hi) 与 之 相等 
for y in range(x + 1, 10)] # [lo, lo+ 1, ..., hi - 1] 


我 们 会 经 常用 到 列表 解析 。 


2.2.3 生成 器 和 和 迭代 器 

列表 的 一 个 问题 是 它 很 容易 变 得 非常 大 。range(1000000) 能 创建 一 个 有 100 万 个 元 素 的 列 
表 : 如 果 你 需要 每 次 只 处 理 其 中 一 个 元 素 ， 这 将 会 是 极 大 的 资源 浪费 (或 会 导致 内 存 不 
足 ) ; 如 果 你 只 需要 前 面 的 几 个 值 ， 那 对 整个 列表 都 进行 计算 也 是 一 种 浪费 。 















































生成 器 (generator) 是 一 种 可 以 对 其 进行 从 代 (对 我 们 来 说 ， 通 常 使 用 for 语句 ) 的 程序 ， 
但 是 它 的 值 只 按 需 延迟 (lazily) 产生 。 


创建 生成 器 的 一 种 方法 是 使 用 函数 和 yield 运算 符 : 


def lazy_range(n): 
"""a lazy version of range"””" 


i=0 

while i < n: 
yield i 
i += 1 














下 的 循环 会 每 次 消耗 一 个 yield 值 直到 一 个 也 不 剩 : 


本 


for i in Lazy_range(10) : 
do_something_with(i) 





(Python 确实 有 一 个 和 lazy_range 一 样 的 函数 ， 叫 作 xrange， 并 且 在 Python 3 中 ，range 
国 数 本 身 就 是 延迟 的 。) 这 意味 着 ， 你 甚至 可 以 创建 一 个 无 限 的 序列 : 


def natural_numbers(): 
“ROEUFNS Ty 2 By dm 
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n=1 

while True: 
yield n 
n+= 1 


尽管 在 没有 使 用 某 种 break 逻辑 语句 时 ， 你 不 应 该 做 这 种 迭代 的 。 





延迟 的 缺点 是 ， 你 只 能 通过 生成 器 迭代 一 次 。 如 果 需 要 多 次 迭代 某 个 对 象 ， 
你 束 需 要 每 次 都 重新 创建 一 个 生成 咒 ， 或 者 使 用 列表 。 














第 二 种 创建 生成 器 的 方法 是 使 用 包含 在 圆 括号 中 的 for 语句 解析 : 





lazy_evens_below 20 = (i for i in lazy_range(20) if i % 2 == 0) 


前 面 提 过 ， 每 个 dict 都 有 一 个 items() 方法 可 以 返回 它 的 键 值 对 的 列表 。 更 常见 的 做 法 是 
使 用 iteritems() 方法 : 当 我 们 在 列表 上 过 代 的 时 候 它 延迟 yield 为 每 次 一 个 键 值 对 。 





2.2.4 ”随机 性 


Al 





我 们 学 习 数 据 科学 时 ， 会 经 常 需要 生成 随机 数 。 可 以 使 用 randon 模块 生成 随机 数 : 


import random 


four_uniform_randoms = [random.random() for _ in range(4)] 


[0.8444218515250481， 
0.7579544029403025 ， 
0.420571580830845 ， 

0.25891675029296335] 
a 


# 
# 
# 
# 
# random.random() 生 成 在 9-1 之 间 均 匀 分 布 的 随机 数 ,是 最 常用 的 随机 函数 





randon 模块 实际 上 生成 的 是 基于 一 种 内 部 状态 的 确定 性 的 伪 随 机 数 。 如 果 你 想得到 可 复生 
的 结果 ， 可 以 用 random.seed 生成 随机 数 种 子 : 

















random.seed(10) # 设置 随机 数 种 子 为 10 
print random.random() # 0.57140259469 
random. seed(10) # 重 设 随机 数 种 子 为 10 


print random.random() # 再 次 得 到 0.57140259469 


有 时 候 我 们 用 random.randrange 生成 随机 数 ， 它 会 取 1 到 2 个 参数 ， 并 从 对 应 的 range() 
函数 随机 选择 一 个 元 素 返 回 : 








random.randrange(10) # 从 range(10) = [06，1，...，9] 中 随机 选取 
random.randrange(3，6) # 从 range(3，6) = [3，4，5] 中 随机 选取 
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还 有 其 他 一 些 比较 方便 的 方法 ， 如 Random.shuffle 可 随机 地 重 排列 表 中 的 元 素 : 
Up_to_ten = range(10) 
random. shuffle(up_to_ten) 
print up_to_ten 
# [2，5，1，9，7，3，8，6，4，0], (你 的 结果 可 能 不 同 ) 
如 果 你 需要 从 列表 中 随机 取 一 个 元 素 ， 可 以 使 用 random.choice: 
my_best_friend = random.choice(["Alice", "Bob", "Charlie"]) # 对 我 来 说 是 "Bob" 


如 果 你 需要 不 替换 地 ( 即 不 重复 地 ) 随机 选择 一 个 元 素 的 样本 ， 可 以 使 用 random.sample: 





Lottery_numbers 
winning_numbers 


range(60) 
random.sample(lottery_numbers, 6) # [16, 36, 10, 6, 25, 9] 


选择 一 个 元 放 普 换 的 ( 即 允 许 重复 的 ) 元 素 样本 ， 只 需 多 次 调用 randon.chotce 即 可 : 


four_with_replacement = [random.choice(range(10)) 
for _ in range(4)] 
# [9, 4, 4, 2] 


2.2.5 ”正则 表达 式 

正则 表达 式 提 供 了 一 种 搜索 文本 的 方法 。 它 超 平 想象 地 有 用 ， 但 同时 也 相当 复杂 ， 以 至 于 
需要 专门 的 书籍 来 讲解 。 之 后 的 内 容 会 频繁 涉及 正则 表达 式 ， 届 时 我 们 再 详 述 ， 这 里 只 给 
出 Python 中 如 何 使 用 正则 表达 式 的 例子 : 





























import re 

print all([ # 所 有 这 些 语句 都 为 true, 因 为 
not re.match("a", "cat"), # *x "cat' 不 以 'a' 开 头 
re.search("a", "cat"), # * "cat' 里 有 一 个 字符 'a' 
not re.search("c", "dog"), # * 'dog' 里 没有 字符 'c' 

















3 == len(re.split("[ab]", "carbs")), # = 分 割 掉 a,b, 剩 余 长 度 为 3 
"R-D-" == re.sub("[0-9]","-","R2D2") # 用 虚线 进行 位 的 替换 
] # 打印 True 


2.2.6 面向 对 和 象 的 编程 

就 像 许多 语言 一 样 ，Python 允许 你 定义 类 (class)。 类 可 以 封装 对 象 和 函数 来 对 它们 进行 
操作 。 有 时 候 我 们 会 用 类 来 使 代码 更 加 干净 整洁 。 解 释 类 的 用 法 的 最 简单 方式 可 能 是 构建 
一 个 有 超 多 注释 的 例子 。 











假设 没有 内 置 的 Python 集合 ， 那 我 们 可 能 会 想到 去 创建 自己 的 Set 类 。 


我 们 创建 的 类 会 有 什么 样 的 行为 呢 ? 给 定 一 个 set， 我 们 需要 能 在 其 中 加 入 (add) 项 目 ， 
移 除 (remove) 项 目 ， 以 及 检查 其 中 是 否 包含 (contains) 某 个 值 。 我 们 把 这 些 功能 创建 











28 | 第 2 章 


为 成 员 (member) 函数 ， 意 思 是 我 们 可 以 通过 在 Set 对 象 后 面 加 点 〈.) 来 访问 它们 : 


# 按 惯例 ,我 们 给 下 面 的 类 起 个 PascalCase 的 名 字 


class Set: 


# 这 些 是 成 员 函 数 
# 每 个 函数 都 取 第 一 个 参数 "self"( 另 一 种 惯例 ) 
# 它 表示 所 用 到 的 特别 的 集合 对 象 





def _ iinit_ (self, values=None): 
"""This ts the constructor. 
Tt gets called when you create a new Set. 
You would use it like 


s1 = Set() # 空 集合 
s2 = Set([1,2,2,3]) # 用 值 初始 化 """ 


self.dict = {}# 0 实例 都 有 自己 的 dict 属 性 
# 我 们 会 te 让 踪 成 员 关 系 
if vaLues is not None: 
for value in values: 
self.add(value) 








def __repr__(self): 
"""this is the string representation of a Set object 


if you type it at the Python prompt or pass it to str()""" 


return "Set: " + str(self.dict.keys()) 





# 通过 成 为 self.dict 中 对 应 值 为 True 的 键 ,来 表示 成 员 关 系 
def add(self, value): 
self.dict[value] = True 


# 如 果 它 在 字典 中 是 一 个 键 ,那么 在 集合 中 就 是 一 个 值 
def contains(self, value): 
return value in self.dict 


def remove(self, value): 
del self.dict[value] 

















可 以 像 下 面 这 样 来 用 上 面 的 函数 : 
= Set([1,2,3]) 
s.add(4) 
print s.contains(4) # True 
s.remove(3) 
print s.contains(3) # False 


2.2.7 ”函数 式 工具 





























在 传递 函数 的 时 候 ， 有 时 我 们 可 能 想 部 分 地 应 用 (或 curry) 函数 来 创建 新 函数 。 下 面 是 一 
个 简单 的 例子 ， 假 设 我 们 有 一 个 含 两 个 变量 的 国 数 ， 
def exp(base, power): 
return base ** power 
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我 们 想 用 它 来 创建 一 个 单 变量 的 函数 two_to_the。 它 的 输入 是 一 个 宕 次 〈power) ， 输 出 的 
是 exp(2，power) 的 结果 。 
当然 ， 我 们 可 以 用 def 来 实现 ,但 它 有 时 候 使 用 起 来 并 不 太 方 便 : 
def two_to_the(power): 
return exp(2, power) 
一 个 另辟蹊径 的 方法 是 使 用 functools.partial: 
from functools import partial 
two_to_the = partial(exp, 2) # 现在 是 一 个 包含 一 个 变量 的 函数 
print two_to_the(3) # 8 
如 果 你 为 后 面 的 参数 指定 了 名 字 ， 也 能 用 partial 来 填充 这 些 参数 : 
square_of = partial(exp, power=2) 
print square_of(3) #9 
如 果 你 curry 中 间 国 数 的 参数 ， 就 会 变 得 混乱 起 来 ， 所 以 要 努力 避免 这 么 做 。 
偶尔 我 们 也 会 使 用 函数 map、reduce 和 filter， 它 们 为 列表 解析 提供 了 函数 式 蔡 换 方案 : 
def double(x): 
return 2* x 
XS [1 2 3; 二] 
twice_ xs = [double(x) for x in xs] # [2, 4, 6, 8] 
twice xs = map(double, xs) # 和 上 面 一 样 
list doubler = partial(map, double) # double 了 一 个 列表 的 *function* 
twice xs = list_doubler(xs) # 同样 是 [2，4，6，8] 
如 果 你 提供 了 多 个 列表 ， 可 以 对 带 有 多 个 参数 的 国 数 使 用 map: 
def multiply(x, y): return x * y 
products = map(multiply, [1, 2], [4, 5])# [1* 4,2*5]= [4, 10] 
类 似 地 ，filter 做 了 列表 解析 中 if 的 工作 : 
def is_even(x): 
"""True if x is even, False if x is odd" 
return x % 2 == 0 
x_evens = [x for x in xs if is_even(x)] # [2,4] 
x_evens = filter(is even, xs) # 和 上 面 一 样 
list evener = partial(filter, is_even) # filter 了 一 个 列表 的 *function* 
x_evens = list_evener(xs) # 同样 是 [2，4] 
reduce 结合 了 列表 的 头 两 个 元 素 ， 它 们 的 结果 又 结合 了 列表 的 第 3 个 元 素 ， 这 个 结果 之 后 





又 结合 了 第 4 个 元 素 ， 依 次 下 去 ， 直 到 得 到 一 个 单独 的 结果 : 
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x_product = reduce(multiply, xs) 类 二 类 和 类 3 坟 44 二 24 
list product = partial(reduce, multiply) # reduce 了 一 个 列表 的 *function* 
x_product = list_product(xs) # 同样 是 24 


2.2.8 枚 举 


有 时 候 ， 你 可 能 想 在 一 个 列表 上 返 代 ， 并 且 同 时 使 用 它 的 元 素 和 元 素 的 索引 : 
# 了 首 Python 用 法 


for i in range(Len(documents) ) : 
document = documents[i] 
do_something(i, document) 











# 也 非 Python 用 法 

i=0 

for document in documents: 
do_something(i, document) 
i += 1 


Python 惯用 的 解决 方案 是 使 用 枚 举 (enumerate)， 它 会 产生 (index，element) 元 组 : 





for i, document in enumerate(documents ) : 
do_something(i, document) 


类 似 地 ， 如 果 你 只 想 要 索引 ， 则 执行 : 


for i. in range(Len(documents)): do_something(i) # 省 Python 用 法 
for i, in enumerate(documents): do_something(i) # Python 用 法 





我 们 会 频繁 用 到 枚 举 。 


2.2.9 压缩 和 参数 拆 分 


如 果 想 把 两 个 或 多 个 列表 压缩 在 一 起 ， 可 以 使 用 zip 把 多 个 列表 转换 为 一 个 对 应 元 素 的 元 
组 的 单个 列表 中 : 





list1 = ['a'’, 'b', 'c'] 
list2 = [1, 2, 3] 
zip(list1, list2) # 是 [('a', 1), ('b', 2), ('c', 3)] 


如 果 列 表 的 长 度 各 异 ，zip 会 在 第 一 个 列表 结束 时 停止 。 
可 以 使 用 一 种 特殊 的 方法 “解压 ”一 个 列表 : 


pairs = [('a'’, 1), ('b', 2), ('c', 3)] 

letters, numbers = zip(*pairs) 
其 中 的 星 号 执行 参数 拆 分 (argument unpacking)。 参 数 拆 分 使 用 pairs 的 元 素 作 为 独立 的 
参数 传 给 zip。 这 就 和 调用 以 下 函数 的 结果 是 一 样 的 : 
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zip(('a'，1)，('b'，2)，('"c'，3)) 
党 返回 [60 全 273 7] 


你 可 以 在 任何 函数 上 使 用 参数 拆 分 : 





def add(a, b): return a + b 


add(1, 2) # 返回 3 
add([1, 2]) # TypeError! 
add(*[1，2]) # 返回 3 





参数 拆 分 并 不 是 特别 有 用 ， 但 当 我 们 用 到 它 的 时 候 ， 会 觉得 这 是 个 不 错 的 技巧 。 


2.2.10 args 和 kwargs 


假如 我 们 想 创 建 一 个 更 高 阶 的 国 数 ， 把 某 个 国 数 f 作为 输入 ， 并 返回 一 个 对 任意 输入 都 返 
回 f 值 两 倍 的 新 函数 : 
def doubler(f): 
def g(x): 


return 2 * f(x) 
return 9 


个 函数 在 有 些 情况 下 可 以 实现 : 


def f1(x): 
return Xx+1 


g = doubler(f1) 


print g(3) 
print g(-1) 


但 对 于 有 多 个 参数 的 函数 来 说 ， 就 不 适用 : 


def f2(x, y): 
return X + y 


g = doubler(f2) 
print g(1, 2) ”# TypeError: g() 只 能 有 一 个 参数 (给 定 了 两 个 ) 


我 们 所 需要 的 是 一 种 指定 一 个 可 以 取 任 意 参 数 的 函数 的 方法 ， 利 用 参数 拆 分 和 一 点 点 魔法 
就 可 以 做 到 这 一 点 








def magic(*args, **kwargs): 
print "unnamed args:", args 
print "keyword args:", kwargs 


magic(1, 2, key="word", key2="word2") 





# 输出 
# 未 命名 args: (1，2) 
# 关键 词 args: {'key2': 'word2', 'key': 'word'} 





也 就 是 说 ， 妆 我 们 定义 了 这 样 一 个 函数 时 ，args 是 一 个 它 的 未 命名 参数 的 元 组 ， 而 kwargs 
是 一 个 它 的 已 命名 参数 的 dict。 反 过 来 也 适用 ， 你 可 以 使 用 一 个 List (或 者 tuple) 和 
dict 来 给 函数 提供 参数 : 


def other_way_magic(x, y, Zz): 
return Xx+y+7z 


了 | 
ct 
print other_way_magiCc(*x_y_List，x*#*Zz_dict) #6 


参照 以 上 例子 ， 你 可 以 充分 利用 这 种 技巧 ， 随 意 发 挥 。 我 们 将 会 只 用 它 来 创建 可 以 将 任意 
参数 作为 输入 的 高 阶 函 数 : 


def doubler_correct(f): 
"""works no matter what Kind of inputs f expects""" 
def g(*args, **kwargs): 


"""whatever arguments g is supplied, pass them through to f""" 
return 2 * f(*args, **kwargs) 
return 9 


g = doubler_correct(f2) 
print g(1，2) # 6 


2.2.11 欢迎 来 到 DataSciencester 
新 员工 的 入 职 培训 到 此 结束 。 哦 ， 当 然 ， 不 要 浪费 任何 所 学 的 东西 。 


2.3 延伸 学 习 


。 Python 的 教程 比比 和 皆 是 。 官 方 的 教程 (https://docs.python.org/2/tutorial/) 是 不 错 的 入 门 
选择 。 


. 家 


襄 方 的 IPython 教程 (http://ipython.org/ipython-doc/2/interactive/tutorial.html) 不 太 理 想 ， 
日 其 教学 视频 和 报告 (http://ipython.org/videos.html) 还 不 错 。 此 外 ，Wes Mckinney 的 
Python for Data Analysis (O’Reilly, http://shop.oreilly.com/product/0636920023784.do) 有 
一 章 非 常 好 地 讲解 了 IPython 。 
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第 3 章 





可 视 化 数据 


我 相信 可 视 化 是 实现 个 人 目标 的 最 有 力 的 手段 之 一 | 








数据 可 视 化 是 数据 科学 家 工具 箱 中 的 一 个 重要 部 分 。 创 建 可 视 化 很 容易 ， 但 创建 优秀 的 可 
视 化 却 很 难 。 


数据 可 视 化 有 两 种 主要 用 途 : 
。 探索 数据 


本 章 我 们 将 集中 探讨 你 在 探索 数据 和 创建 可 视 化 过 程 中 所 用 到 的 各 项 技能 ， 可 视 化 将 贯 
本 书 剩余 部 分 。 就 像 本 书 大 部 分 章节 涉 及 的 主题 一 样 ， 数 据 可 视 化 是 一 个 非常 丰富 的 研究 
领域 ， 值 得 单 书 阐述 。 尽 管 如 此 ， 我 们 还 是 尝试 着 告诉 你 怎样 辨别 可 视 化 的 好 坏 。 








3.1 matplotlib 


有 许多 工具 可 以 用 来 可 视 化 数据 ， 我 们 将 使 用 的 是 应 用 最 广 的 matplotlib 库 〈 尽 管 这 暴露 
了 它 的 年 龄 。 详 见 http://matplotlib.org/)。 如 果 你 的 兴趣 是 制作 用 于 网 络 的 精良 的 交互 可 视 
化 ， 它 可 能 不 是 好 的 选择 ， 但 对 于 条 形 图 、 线 图 和 散 点 图 这 些 简单 的 图 形 来 说 ， 它 很 好 用 。 


特别 地 ， 我 们 会 使 用 matplotlib.pyplot 模块 。 在 最 简单 的 应 用 中 ，pyplot 保持 着 一 种 
内 部 状态 ， 你 可 以 在 其 中 一 步 步 地 创建 可 视 人 化。 一旦 创建 工作 完成 ， 就 可 以 保存 (用 
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savefig()) 或 显示 (用 show()) 你 的 图 形 。 











例如 ， 制 作 一 个 〈 就 像 图 3-1 这 样 ) 非常 简单 的 图 形 ， 就 可 以 采取 以 下 步 又: 





from matplotlib import pyplot as plt 


years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 


# 创建 一 幅 线 图 ,x 轴 是 年 份 ,y 轴 是 gdp 
plt.plot(years, gdp, color='green', marker='0', linestyle='solid') 





# 添加 一 个 标题 
plt.title(" 名 义 GDP") 





# 给 y 轴 加 标记 
plt.ylabel(" 十 亿美 元 ") 
plt.show() 
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图 3-1: 一 个 简单 的 线 图 


制作 出 版 级 别 的 精良 图 片 要 更 加 复杂 ， 本 音 不 作 深 入 探讨 。 对 图 形 进行 自 定义 的 方式 有 多 
种 ， 如 坐标 轴 标 记 、 线 型 以 及 点 的 形状 等 。 我 们 并 不 会 面面俱到 地 讲解 这 些 参 数 ， 只 会 在 
我 们 的 例子 中 提 到 (并 关注 ) 其 中 的 一 些 
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尽管 我 们 并 不 会 用 到 matplotlib 太 多 的 功能 ， 但 它 着 实 能 够 制作 出 复杂 的 
图 中 图 、 精 致 的 图 形 格 式 和 交互 图 形 。 如 果 你 想 做 得 比 本 书 更 深入 ， 请 查阅 
它 的 文档 。 









































Ef 
3.2 条 形 图 
如 果 你 想 展 示 某 些 离散 的 项 目 集合 中 的 数量 是 如 何 变化 的 ， 可 以 使 用 条 形 图 。 比 如 ， 





AE 


3-2 显示 了 几 部 电影 所 获得 的 奥斯卡 金 像 奖 的 数目 : 


movies = ["Annie Hall", "Ben-Hur", "Casablanca", "Gandhi", "West Side Story"] 
num_oscars = [5, 11, 3, 8, 10] 


# 条 形 的 默认 宽度 是 0.8, 因 此 我 们 对 左 侧 坐 标 加 上 0.1 
# 这 样 每 个 条 形 就 被 放置 在 中 心 】 
xs = [i + 0.1 for i, _ inenumerate(movies)] 

















# 使 用 左 侧 x 坐 标 [xs] 和 高 度 [num_oscars] 画 条 形 图 


plt.bar(xs, num_oscars) 


plt.ylabel(" 所 获 奥斯卡 金 像 奖 数量 ") 
plt.title(" 我 最 喜爱 的 电影 ") 

















# 使 用 电影 的 名 字 标 记 x 轴 ,位 置 在 x 轴 上 条 形 的 中 心 


plt.xticks([i + 0.5 for i, _ in enumerate(movies)], movies) 








plt.show() 








我 最 喜爱 的 电影 
12 取 有 


所 获 奥 斯 卡 金 像 奖 数量 








Annie Hall Ben-Hur Casablanca Gandhi West Side Story 





图 3-2: 一 个 简单 的 条 形 图 
条 形 图 也 可 以 用 来 绘制 拥有 大 量 数值 取 值 的 变量 直方 图 ， 以 此 来 探索 这 些 取 值 是 如 何 分 布 
的 ， 如 图 3-3 所 示 。 

grades = [83,95,91,87,70,0,85,82,100,67,73,77,0] 

decile = Lambda grade: grade // 10 * 10 


histogram = Counter(decile(grade) for grade in grades) 


plt.bar([x - 4 for x in histogram.keys()]，# 每 个 条 形 向 左 侧 移动 4 个 单位 


histogram.values(), # 给 每 个 条 形 设 置 正确 的 高 度 
8) # 每 个 条 形 的 宽度 设置 为 8 


plt.axis([-5, 105, 0, 5]) 


站 


x 轴 取 值 从 -5 到 105 
# y 轴 取 值 0 到 5 


plt.xticks([10 * i for i in range(11)]) # x 轴 标记 为 0,10, . ..,100 
plt.xlabel(" 十 分 相 ") 

plt.ylabel(" 学 生 数 ") 

plt.title(" 考 试 分 数 分 布 图 ") 

plt.show() 
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考试 分 数 分 布 图 











图 3-3: 为 直方 图 使 用 条 形 图 


plt.bar 的 第 三 个 参数 指定 了 条 形 的 宽度 ， 在 这 里 我 们 选择 宽度 为 8 (这 样 就 在 各 个 条 形 
之 间 留 出 了 小 的 间隔 ， 因 为 x 轴 是 以 刻度 10 做 标记 的 )， 而 且 把 每 个 条 形 向 左 移 了 4 个 宽 
度 。 这 样 一 来 ，( 比 如 说 )“80” 这 个 条 形 的 左边 在 76， 而 右边 在 84， 因 此 它 的 中 心 在 80。 








对 plt.axis 的 调用 表明 我 们 希望 x 轴 的 范围 是 -5~105 (以 使 “0” 到 “100” 这 些 条 形 可 
以 完全 显示 )， 并 且 y 轴 的 范围 应 限定 在 0~5 之 间 。 对 plt.xticks 的 调用 把 x 轴 的 刻度 放 
在 0、10、20、……… 、100 这 些 位 置 。 


在 使 用 ptt.axis() 时 要 谨慎 。 在 创建 条 形 图 时 ，y 轴 不 从 0 开始 是 一 种 特别 不 好 的 形式 ， 
因为 这 很 容易 误导 人 ( 见 图 3-4) : 


mentions = [500, 505] 
years = [2013, 2014] 


plt.bar([2012.6, 2013.6], mentions, 0.8) 
plt.xticks(years) 
plt.ylabel(" 昕 到 有 人 提 及 “数据 科学 "的 次 数 ") 


# 如 果 不 这 么 做 ,matplotlib 会 把 x 轴 的 刻度 标记 为 9 和 1 





# 然后 会 在 角 上 加 上 +2.013e3( 糟 糕 的 matpLotLib 操 作 ! ) 
plt.ticklabel_format(useOffset=False) 


# 这 会 误导 y 轴 只 显示 500 以 上 的 部 分 
plt.axis([2012.5,2014.5,499,506]) 
plt.title(" 快 看 如 此 ' 巨 大 ' 的 增长 ! ") 
plt. show() 





506 快 看 如 此 “巨大 ”的 增长 ! 
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的 次 数 
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图 3-4: 一 个 有 误导 性 y 轴 的 条 形 图 
在 图 3-5 中 ,我们 使 用 了 一 种 更 合理 的 轴 ， 这 样 它 看 起 来 就 不 那么 异常 了 : 
plt.axis([2012.5,2014.5,0,550]) 


plt.title(" 增 长 不 那么 巨大 了 ") 
plt.show() 
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增长 不 那么 巨大 了 
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图 3-5: y 轴 正 常 的 同一 个 条 形 图 


3.3 ” 线 图 


前 面 提 过 ， 可 以 用 ptt.ptlot() 来 制作 线 图 。 这 种 图 形 可 以 用 来 清晰 地 显示 某 种 事物 的 趋 


柬 ， 如 图 3-6 所 示 : 


variance [1, 2, 4, 8, 16, 32, 64, 128, 256] 
bias_squared = [256, 128, 64, 32, 16, 8, 4, 2, 1] 
total_error [x + y for x, y in zip(variance, bias_squared)] 


xs = [i for i, _ in enumerate(variance)] 


# 可 以 多 次 调用 plt.plot 

# 以 便 在 同一 个 图 上 显示 多 个 序列 

plt.plot(xs, variance, 'g-', label='variance') # 绿色 实 线 
plt.plot(xs, bias_squared, 'r-.', label='bias^2') # 红色 点 虚线 
pLt.pLot(xs，totaL_error， 'b:'， label='total error') # 蓝 色 点 线 


# 因为 已 经 对 每 个 序列 都 指派 了 标记 
# 所 以 可 以 自由 地 布置 图 例 

# Loc=9 指 的 是 “顶部 中 央 ” 

plt. legend(loc=9) 
plt.xlabel(" 模 型 复杂 度 ") 
plt.title(" 偏 差 -方差 权衡 图 ") 
plt.show() 
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图 3-6: 带 有 图 例 的 几 个 线 图 


3.4 散 点 图 


散 点 图 是 显示 成 对 数据 集 的 可 视 化 关系 的 好 选择 。 比 如 ， 图 3-7 显示 了 你 的 用 户 们 已 有 的 
朋友 数 和 他 们 每 天 花 在 网 站 上 的 分 钟 数 之 间 的 关系 : 














friends [ 70, 65, 72, 63, 71, 64, 60, 64, 67] 
minutes [175, 170, 205, 120, 220, 130, 105, 145, 190] 
labels = [a 'b', net, 'd'，, ve a ‘gs hs 号 呵 


plt.scatter(friends, minutes) 


# 每 个 点 加 标记 
for label, friend_count, minute_count ;in zip(labels, friends, minutes): 
plt.annotate(label, 
xy=(friend_count，minute_count), # 把 标记 放 在 对 应 的 点 上 
xytext=(5, -5) 3 # 但 要 有 轻微 偏离 


textcoords='offset points') 


plt.title(" 日 分 钟 数 与 朋友 数 ") 
plt.xlabel(" 朋 友 数 ") 
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plt.ylabel(" 花 在 网 站 上 的 日 分 钟 数 ") 
plt.show() 








日 分 钟 数 与 朋友 数 














3-7: 朋友 数 与 花 在 网 站 上 的 分 钟 数 之 间 的 关系 散 点 图 


当 你 分 散 了 可 比较 的 变量 ， 如 果 让 matplotlib 选择 刻度 ， 可 能 会 得 到 一 个 误导 性 的 图 ， 如 
图 3-8 所 示 : 





[ 99, 90, 85, 97, 80] 
[100, 85, 60, 90, 70] 


test_ 1 grades = 
test_2_grades = 
plt.scatter(test_ 1 grades, test 2_grades) 
plt.title("Axes Aren't Comparable") 
plt.xlabel( "测验 1 的 分 数 ") 

plt.ylabel( "测验 2 的 分 数 ") 

plt.show() 
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90 95 100 
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图 3-8: 带 有 无 法 比较 的 轴 的 散 点 图 
如 果 我 们 引入 对 ptt.axis ("equal") 的 调用 ， 图形 ( 


是 发 生 在 测验 2 上 的 。 





WR| 


3-9) 会 更 精确 地 显示 大 多 数 变化 
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110 可 比较 的 轴 
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3-9: 带 有 可 比较 的 轴 的 同一 个 散 点 图 
以 上 这 些 内 容 对 于 开始 进行 可 视 化 已 经 足够 了 ， 本 书后 面 还 会 讲解 更 多 关于 可 视 化 的 知识 。 


3.5 延伸 学 习 

。 seaborn (http://web.stanford.edu/~mwaskom/software/seaborn/) 基于 matplotlib 构建 ， 让 
你 可 以 轻松 地 制作 更 漂亮 也 更 复杂 的 可 视 化 。 

。 D3.js (http://d3js.org/) 是 一 个 JavaScript 库 ， 可 以 制作 精致 的 基于 网 络 的 交互 可 视 化 。 
尽管 它 并 不 存在 于 Python 中 ， 但 它 很 时 秘 ， 并 且 应 用 广泛 ， 值 得 你 花 时 间 来 了 解 它 。 

。 Bokeh (http://bokeh.pydata.org/en/latest/) 是 一 个 较 新 的 库 ， 它 将 D3 风格 的 可 视 化 引入 
了 Python 中 。 

。 ggplot (https://pypi.python.org/pypi/ggplot) 是 流行 的 R 库 9ggptot2 的 Python 接口 。 
9gplot2 被 广泛 用 于 生成 “出 版 级 别 ” 的 图 形 图 像 。 如 果 你 是 一 个 热情 的 ggplot2 用 户 ， 

可 能 是 非常 有 趣 的 工具 ， 但 如 果 你 不 熟悉 它 ， 可 能 会 觉得 使 用 起 来 有 些 困 难 。 
























































第 4 章 


线性 代数 





百 无 一 用 是 代数 。 
一 一 比 利 . 康 诺 利 


线性 代数 是 数学 的 一 个 分 支 ， 研 究 向 量 空间 。 我 不 指望 用 一 章 就 能 教会 你 线性 代数 ， 但 这 
童 涵盖 了 数据 科学 的 大 量 概念 和 技术 ， 因 此 你 至 少 试 着 学 习 一 下 。 本 章 所 学 内 容 在 本 书后 
续 部 分 会 大 量 应 用 。 


4.1 和 问 量 


抽象 地 说 ， 向 量 是 指 可 以 加 总 《以 生成 新 的 向 量 ) ， 可 以 乘 以 标量 〈 即 数字 )， 也 可 以 生成 
新 的 向 量 的 对 象 。 





具体 来 说 (对 我 们 而 言 )， 向 量 是 有 限 维 空间 的 点 。 即 使 你 本 无 意 视 你 的 数据 为 向 量 ， 将 
数值 数据 表示 为 向 量 也 是 非常 好 的 处 理 方式 .。 


比如 ， 如 果 你 有 很 多 人 的 身高 、 体 重 、 年 龄 数据 ， 就 可 以 把 数据 记 为 三 维 向 量 (height， 
weight，age)。 如 果 你 教 的 一 个 班 有 四 门 考试 ， 就 可 以 把 学 生成 绩 记 为 四 维 向 量 (exam1， 


exam2，exam3，exam4) 。 




















最 简单 的 入 门 方法 是 将 向 量 表示 为 数字 的 列表 。 一 个 包含 三 个 数字 的 列表 对 应 一 个 三 维 空 
间 的 向 量 ， 反 之 亦 然 : 


45 


grades = [95， # 考试 1 
80，# 考试 2 
75， # 考试 3 
62 ] # 考试 4 


这 种 方式 的 一 个 问题 在 于 向 量 算 法 的 应 用 。 由 于 Python 中 的 列表 不 同 于 向 量 (因此 无 法 直 
接 对 向 量 运 算 ) ， 我 们 需要 自己 提前 构建 相应 算法 工具 。 现 在 就 开始 构建 吧 ! 





首先 ， 我们 常常 需要 对 两 个 向 量 做 加 法 。 向 量 以 分 量 方 式 (componentwise) 做 运算 。 这 意 
味 着 ， 如 果 两 个 向 量 v 和 w 长 度 相同 ， 那 它们 的 和 就 是 一 个 新 的 向 量 ， 其 中 向 量 的 第 一 个 
元 素 等 于 v[0] + w[9]， 第 二 个 元 素 等 于 v[1] + w[1]， 以 此 类 推 。( 如 果 两 个 向 量 长 度 不 
同 ， 则 不 能 相 加 。) 























例如 ， 向 量 [1，2] 加 上 向 量 [2，1] 等 于 [1 + 2, 2 + 1] 或 [3，3]， 如 图 4-1 所 示 。 
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4-1: 两 个 向 量 相 加 


我 们 可 以 很 容易 地 实现 这 个 功能 : 对 向 量 调用 zip 函数 ， 同 时 用 列表 解析 使 向 量 的 相应 元 
素 相 加 : 








def vector_add(v, w): 
"""adds corresponding elements 
return [v_i + w_i 
for v_i, w i in zip(v, w)] 


Mmm 


同样 ， 对 两 个 向 量 做 减法 ， 只 需要 使 向 量 的 相应 元 素 相 减 : 


def vector_subtract(v, w): 
"""subtracts corresponding elements 
return [vi - w 1 
for v_i, wi in zip(v, w)] 


mm 





有 时 ， 我 们 需要 对 一 系列 向 量 做 加 法 。 即 生成 一 个 新 向 量 ， 其 第 一 个 元 素 是 这 一 系列 向 量 
一 个 元 素 的 和 ， 第 二 个 元 素 是 这 一 系列 向 量 第 二 个 元 素 的 和 ， 以 此 类 推 。 最 简单 的 方法 
是 每 次 递 加 一 个 向 量 : 


def vector_sum(vectors): 
"""sums all corresponding elements 


Mam 




















result = vectors[0] # 从 第 一 个 向 量 开始 
for vector in vectors[1:]: # 之 后 遍历 其 他 向 量 
result = vector_add(result, vector) # 最 后 计 入 总 和 


return result 


: 


当 你 思考 这 个 解决 方法 时 ， 我 们 正 通过 vector_add 函数 ， 即 使 用 reduce 的 方式 来 加 总 这 
系列 的 向 量 。 换 名 话说， 我 们 用 高 级 的 函数 更 加 简洁 地 实现 了 这 个 功能 





def vector_sum(vectors): 
return reduce(vector_add，vectors) 


或 者 : 
vector_sum = partial(reduce, vector_add) 


后 一 种 方法 很 简洁 、 巧 妙 ， 但 可 能 相 比 之 下 没有 前 几 种 有 用 处 。 








这 最 
然 ， 我 们 有 时 也 需要 给 一 个 向 量 乘 以 一 个 标量 ， 这 时 只 需 将 向 量 的 每 个 元 素 乘 以 那个 
字 


多 


def scalar_multiply(c, v): 
"""C is a Number, v is a vector 
return [c * vi for vi inv] 


mm 


我 们 也 可 以 计算 一 系列 向 量 (长 度 相 同 ) 的 均值 : 





def vector_mean(vectors): 
"""compute the vector whose ith element is the mean of the 
ith elements of the input vectors""”" 
= len(vectors) 
return scalar_multiply(1/n, vector_sum(vectors)) 
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一 个 不 常见 的 功能 是 点 乘 (dot product) 。 两 个 向 量 的 点 乘 表 示 对 应 元 素 的 分 量 乘积 之 和 : 





def dot(v, w): 
VE 
return sum(v i * wi 

for v_i, wi in zip(v, w)) 





点 乘 衡 量 了 向 量 在 向 量 w 方向 延伸 的 程度 。 例 如 ， 如 果 w=[1，0]， 则 dot(v，w) 就 是 v 
的 第 一 个 元 素 。 点 乘 的 另 一 个 解释 是 将 ”在 w 上 投影 所 得 到 的 向 量 的 长 度 〈 如 图 4-2) : 

















{vew)w 














4-2: 点 乘 即 向 量 投影 
通过 点 乘 很 容易 计算 一 个 向 量 的 平方 和 : 
def sum_of_squares(v) : 


Wh A ty Me Ee /A i 
return dot(v, v) 


可 以 用 来 计算 向 量 的 大 小 (或 长 度 ) : 
import math 


def magnitude(v): 
return math.sqrt(sum_of_squares(v)) # math.sqrt 是 平方 根 函 数 
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现在 ， 我 们 得 到 了 为 计算 两 个 向 量 的 距离 所 需要 的 所 有 部 分 ， 定 义 如 下 : 





= wi1)” 十 下 (Vi = wa )” 
def squared_ distance(v, w): 


"Vv IT -WD) I+ + VN- WN) ** DO 
return sum_of_squares(vector_subtract(v, w)) 


def distance(v, Ww): 
return math.sqrt(squared_distance(v, w)) 


写成 下 式 (与 上 式 等 价 ) 更 清晰 : 


def distance(v, w): 
return magnitude(vector_subtract(v, w)) 


有 了 这 些 关于 向 量 的 概念 和 计算 ,我们 就 可 以 开始 探讨 数据 科学 了 。 本 书后 续 部 分 会 大 量 
使 用 这 些 概念 。 














用 列表 来 表示 向 量 很 有 利于 概念 阐释 ， 但 对 性 能 却 影 响 很 糟 。 


实际 编程 中 ， 你 需要 使 用 NumPy 库 。 这 个 库 中 有 包含 各 种 算法 操作 的 高 性 
能 数组 类 。 





4.2 ”和 矩阵 


矩阵 是 一 个 二 维 的 数据 集合 。 我 们 将 矩阵 表示 为 列表 的 列表 ， 每 个 内 部 列表 的 大 小 都 一 
样 ， 表 示 怎 阵 的 一 行 。 如 果 A 是 一 个 和 矩阵， 那么 ALi][j] 就 表示 第 i 行 第 j 列 的 元 素 。 按 照 
数学 表达 的 惯例 ， 我 们 通常 用 大 写字 母 表示 乍 阵 。 例 如 

















A = [[1,，2，3]， # A 有 2 行 3 列 
[4, 5, 6]] 


B = [[1, 2], # B 有 3 行 2 列 
[3， 4] ， 
[5，6]] 

















在 数学 中 ， 移 阵 的 第 一 行 通常 称 为 “第 1 行 ”， 第 一 列 通常 称 为 “第 1 列 ”。 
而 我 们 需要 将 矩阵 的 形式 和 Python 的 列表 统一 起 来 : Python 中 的 列表 从 0 
开始 索引 ， 所 以 ,我 们 将 矩阵 的 第 一 行 称 为 “第 0 行 "， 将 第 一 列 称 为 “第 
0 列 ”。 














基于 列表 的 列表 这 种 表达 形式 ， 和 矩阵 A 具有 Len(A) 行 和 Len(A[9]) 列 ， 我 们 把 这 称 作 它 的 
形状 (shape) : 
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def shape(A) : 
num_rows = Len(A) 
num_cols = len(A[0]) if A else 0 # 第 一 行 中 元 素 的 个 数 
return Num_rows, Num_cols 

















如 果 一 个 矩阵 及 行 k 列 ， 则 可 以 记 为 n xk 算 了 泗 。 我 们 可 以 把 这 个 nxk 算 阵 的 每 一 行 都 
当 作 一 个 长 度 为 的 向 量 ， 把 每 一 列 都 当 作 一 个 长 度 为 n 的 向 量 : 








def get_row(A, i): 
return A[i] # A[i] 是 第 i 行 


def get_column(A, j): 
return [A_i[j] # 第 A_i 行 的 第 j 个 元 素 
for Ai in A] # 对 每 个 A_i 行 
同样 ， 我 们 也 可 以 根据 形状 和 用 来 生成 元 素 的 函数 来 创建 矩阵 。 可 以 通过 一 个 藤 套 的 列表 
解析 来 实现 ， 





def make_matrix(num_rows, Nnum_cols, entry_fn): 
""returns a num_rows X num_cols matrix 
whose (i,j)th entry is entry_fn(i, j)""" 





return [[entry_fn(i, j) # 根据 i 创建 一 个 列表 
for j in range(num cols)] # [entry_fn(i, 0), . ] 
for i in range(num rows)] # 为 每 一 个 创建 一 个 列表 


有 了 这 个 函数 ， 就 可 以 生成 一 个 5x5 的 单位 矩阵 (对 角 线 元 素 是 1， 其 他 元 素 是 0) : 


def is diagonal(i, j): 
"""1's on the 'diagonal', 0's everywhere else”""” 
return 1 if i == j else 0 


identity_matrix = make_matrix(5, 5, is_diagonal) 


# [[1, 0, 0, 0, 0], 
# [90, 1, 0, 0, 0], 
# [90, 0, 1, 0, 0]，, 
# [0, 0, 0, 1, 0], 
# [0, 0, 0, 0, 1]] 


矩阵 的 重要 性 不 言 而 喻 ， 原因 有 以 下 几 个 。 


首先 ， 可 以 通过 将 每 个 向 量 看 成 是 矩阵 的 一 行 ， 来 用 矩阵 表示 一 个 包含 多 维 向 量 的 数据 
集 。 例 如 ， 如 果 有 1000 个 人 的 身高 、 体 重 和 年 龄 ， 就 可 以 创建 一 个 1000 x 3 的 和 抵 阵 ; 




















data = [[70, 170, 40], 
[65, 120, 26], 
[77, 250, 19], 

] 


第 二 ， 随 后 我 们 会 看 到 ， 可 以 用 一 个 n xk 和 矩阵 表示 一 个 线性 函数 ， 这 个 函数 将 一 个 上 维 的 
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向 量 映 射 到 一 个 n 维 的 向 量 上 。 我 们 使 用 的 很 多 技术 与 概念 都 隐 含 着 这 样 的 函数 。 

第 三 ， 可 以 用 矩阵 表示 二 维 关系 。 在 第 1 章 中 ， 我 们 曾经 将 网 络 边际 表示 为 数据 对 (i，j) 
的 集合 。 我 们 还 可 以 通过 建立 矩阵 A 来 实现 这 个 描述 : 如果 布点 i 和 市 点 7 有 关系 ， 则 用 
和 矩阵 的 元 素 AL[i][j] 为 1 来 表示 ; 车 节点 i 和 市 点 j 没 有 关系 ， 则 用 ALi][j] 为 0 来 表示 。 
回想 前 面 讲 过 的 关系 : 


friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), 
(4, 5), (5, 6), (5, 7), (6, 8), (7s 8), (8, 9)] 





















































可 以 通过 矩阵 形式 再 现 : 
# 用 户 0123456789 
# 
friendships = [[0, 1, 1, 0, 0, 0, 0, 0, 0, 0], # 用 户 0 
[1, 0,1, 1, 0, 90, 0, 90, 90,9], # 用 户 1 
[1，1，0，1，0， 0,，0, 0,，0，0], # 用 户 2 
[6，1，1，0，1，0，0，0，0，0], # 用 户 3 
[0, 0, 0，1, 0，1, 0, 0,， 90， 0], # 用 户 4 
[96，0，0，0，1，0，1，1，0，0], # 用 户 5 
[0, 0, 0,， 0,，0，1,， 9090, 0， 1, 0], # 用 户 6 
[0，0，0，0,，0,，1，0，06，1，0], # 用 户 7 
[96，0，0，0，060,， 0,， 1，1，0，1], # 用 户 8 
[06，60，0，0，060,， 0,， 0,， 060,， 1，0]] # 用 户 9 














如 有 果 关 系 很 少 ， 这 种 表示 形式 的 效率 就 会 很 低 ， 因 为 必须 存储 很 多 零 。 但 是 ， 通 过 抑 阵 表 
示 可 以 快速 地 查找 确认 革 两 个 节点 是 否 是 连接 的 一 一 通过 一 个 和 矩阵 查找 函数 即 可 ， 不 必 
(有 可 能 会 ) 搜索 每 条 边 


friendships[0][2] == 1 # true,0 和 2 是 朋友 
friendships[0][8] == 1 # false,0 和 8 不 是 朋友 
同样 ， 若 想 找 到 一 个 节点 的 所 有 连接 ， 只 需 检 查 这 个 节点 所 在 的 列 (或 行 ) : 
friends_of five = [i # 仅 需 在 
for i, is_friend in enumerate(friendships[5]) # 一 行 中 
if is_friend] # 查找 





为 了 加 速 这 个 搜寻 过 程 ， 我 们 之 前 给 每 个 市 点 对 象 都 添加 了 一 个 连接 列表 。 但 对 于 太 大 
的 、 扩 展 性 强 的 图 形 来 说 ， 成 本 太 高 ， 维 护 也 很 难 。 


本 书 随后 还 会 探讨 这 些 和 矩阵 。 


4.3 延伸 学 习 


。 线性 代数 在 数据 科学 家 中 应 用 很 广 (通常 是 隐 式 使 用 ， 且 不 说 此 道 的 人 也 经 常 使 用 )。 
阅读 这 方面 的 教材 是 个 好 主意 。 网 上 也 有 很 多 免费 资源 ， 如 : 
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一 UC Davis 提供 的 有 关 线 性 代数 的 资源 (https:Wwww.math.ucdavis.edu/~linear) ; 

一 圣 迈 克 尔 大 学 提供 的 有 关 线 性 代数 的 资源 (http:Wjoshua.smcvt.edu/linearalgebra/) ; 

- 对 喜欢 挑战 的 读者 来 说 ,Zinear Algebra Done Wrong (http://www.math.brown. 
edu/~treil/papers/LADW/LADW.html) 是 一 本 进 阶 读物 。 

如 果 你 使 用 NumPy (http:/www.numpy.org/) 的 话 ， 我 们 此 处 创建 的 所 有 工具 都 可 以 免 

费 使 用 (你 赚 到 了 )。 
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统计 学 





事实 如 父 石 ， 统 计 似 蒲 草 。 
一 一 马克 . 叶 温 


统计 学 是 我 们 赖 以 理解 数据 的 数学 与 技术 。 这 是 一 个 庞大 繁 未 的 领域 ， 要 用 图 书馆 的 一 整 
个 书架 (其 至 一 整 间 屋 子 ) 的 书 来 阐述 ， 绝 非 一 本 书 的 一 个 章节 所 能 尽 述 ， 所 以 本 书 的 控 
讨 必然 不 会 太 深 入 。 我 在 此 抛砖引玉 ， 讲 述 一 些 刚好 能 激发 你 的 兴趣 的 内 容 ， 供 你 自行 深 
入 学 习 与 开拓 。 


5.1 描述 单个 数据 集 
凭借 口碑 与 运气 ，DataSciencester 已 经 发 展 了 数 十 名 成 员 。 这 时 ， 融 资 部 门 的 副 总 来 问 你 
要 一 些 关 于 你 的 成 员 有 多 少 朋 友 的 描述 ， 以 此 来 确定 他 潜在 的 电梯 演说 对 象 。 


运用 第 1 章 中 学 到 的 技术 可 以 很 容易 地 生成 这 个 数据 。 但 你 现 面临 的 问题 是 如 何 描述 它 。 
对 任何 数据 集 ， 最 简单 的 描述 方法 就 是 数据 本 身 : 























num_friends = [100, 49, 41, 40, 25, 


对 足够 小 的 数据 集 来 说 ， 这 其 至 可 以 说 是 最 好 的 描述 方法 。 但 随 着 数据 规模 变 大 ， 这 就 显 
得 笨拙 又 含混 了 。( 想 象 一 个 包含 一 亿 个 数字 的 列表 。) 为 此 ， 我 们 使 用 统计 来 提炼 和 表达 
数据 的 相关 特征 。 
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说 
a| 


首先 ， 我们 通过 Couner 和 plt.bar() 把 你 的 朋友 数 绘 成 直方 医 








| 5-1 ) : 








friend_counts = Counter(num_friends) 

xs = range(101) # 最 大 值 是 100 

ys = [friend_counts[x] for x in xs]  # height 刚 好 是 朋友 的 个 数 
plt.bar(xs, ys) 

plt.axis([0, 101, 0, 25]) 

plt.title(" 朋 友 数 的 直方 图 ") 

pLt.xLabeL(" 朋友 个 数 ") 

plt.ylabel(" 人 数 ") 




















plt.show() 
25 朋友 数 的 直方 图 
20 
15 
40 60 80 100 
朋友 个 数 











5-1: 朋友 数 的 直方 图 


不 幸 的 是 ， 这 幅 图 难以 用 来 进行 交流 ， 所 以 你 需要 再 提炼 一 些 统 计量 。 数 据点 个 数 大 概 就 
是 最 简单 的 统计 量 了 : 


Num_points = len(num_ friends) # 204 
也 许 你 会 对 数据 集 的 最 大 值 和 最 小 值 感 兴 


Largest_vaLue = max(num_friends) # 100 
smallest_value = min(num_friends) #1 
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邮 


如 果 你 想 知 道 特定 位 置 的 值 ， 可 以 这 样 做 : 





sorted_values = sorted(num_friends) 

smallest_value = sorted values[0] #1 
second_smallest valuyue = sorted values[1] #91 
second_largest value = sorted values[-2] # 49 


| 


然 ， 这 仅仅 是 开始 。 





5.1.1 中心 倾向 
我 们 常常 希望 了 解数 据 中 心 位 置 的 一 些 概念 。 一 个 常用 的 方法 是 使 用 均值 (mean 或 
average)， 即 用 数据 和 除 以 数据 个 数 : 


# 如 果 没 有 从 __future__ 导 入 division, 那 就 是 不 对 的 
def mean(x): 
return sum(x) / len(x) 


mean(num_friends) # 7.333333 
如 果 你 有 两 个 数据 点 ， 均 值 就 意味 着 两 点 的 中 间 点 。 随 着 数据 集中 点 数 的 增加 ， 均 值 点 会 
移动 ， 但 它 始 终 取 决 于 每 个 点 的 取 值 。 
我 们 常常 也 会 用 到 中 位 数 (median)， 它 是 指数 据 中 间 点 的 值 (如 果 数 据点 的 个 数 是 奇 
数 ) ， 或 者 中 间 两 个 点 的 平均 值 (如 果 数 据点 的 个 数 是 偶数 ) 。 
例如 ， 如 果 在 排序 向 量 x 上 有 五 个 数据 点 ， 那 么 中 位 数 就 是 x[5 // 2] 或 x[2]。 如 果 有 六 
个 数据 点 ， 则 中 位 数 是 x[2] (第 三 个 点 ) 与 x[3] (第 四 个 点 ) 的 平均 数 。 


注意 一 一 和 均值 不 同一 一 中 位 数 并 不 依赖 于 每 一 个 数据 的 值 。 例 如 ， 即 便 数据 集中 最 大 的 
点 变 得 更 大 (或 最 小 的 点 变 得 更 小 )， 中 间 的 数据 点 都 不 会 变 ， 意味 着 中 位 数 也 不 会 变 。 




















median 国 数 很 可 能 比 你 想象 的 更 复杂 一 些 ， 主 要 是 因为 数据 集中 数据 个 数 奇偶 性 的 不 同 : 





def median(v): 
"""finds the 'middle-most' value of v""”" 


n = len(v) 
sorted v = sorted(v) 
midpoint = n // 2 


if n %2 == 1: 
# 如 果 是 奇数 ,返回 中 间 值 
return sorted_v[midpoint] 
else: 
# 如 果 是 偶数 ,返回 中 间 两 个 值 的 均值 
Lo = midpoint - 1 
hi = midpoint 
return (sorted_v[lo] + sorted_v[hi]) / 2 
median(num_friends) # 6.0 
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很 明显 ,均值 的 计算 更 简单 ， 并 且 它 会 随 着 数据 变化 而 平稳 地 变化 。 如 果 有 个 数据 点 ， 





是 为 了 计算 中 位 数 ， 得 先 对 数据 排序 。 并 且 ， 如 果 其 中 一 个 数据 点 的 值 增加 了 e， 





其 中 某 一 个 点 的 值 增加 了 e， 则 均值 随 之 增加 e/m。( 这 使 得 均值 适用 于 各 种 微分 运算 ) 但 


那么 中 


位 数 有 可 能 也 增加 e， 有 可 能 增加 一 个 小 于 e 的 数 ， 也 有 可 能 根本 不 变 ( 这 取决 于 其 他 的 


数据 )。 


了 实 上 ， 不 排序 也 可 以 使 用 一 些 生 僻 的 技巧 有 效 地 算 昌 


山中 














书 的 讲解 范围 。 所 以 我 们 先 排 序 再 计算 。 





时 中 位 数 (https:// 
en.wikipedia.org/wiki/Quickselect) 。 但 这 些 技巧 不 但 不 易 理 解 ， 而 且 超 出 了 本 


同时 ， 均 值 对 数据 中 的 异常 值 非常 敏感 。 如 果 最 具 人 缘 的 用 户 有 200 个 朋友 (不 是 100)， 


均值 会 上 升 至 7.82， 而 中 位 数 不 变 。 如 果 异 常 值 属于 不 良 数据 (或 者 对 我 们 试图 开 








E 解 的 现 


象 不 具有 代表 性 ) ， 那 么 均值 会 误导 我 们 。 举 一 个 老生 常 谈 的 例子 ，20 世纪 80 年 代 ， 北 卡 
罗 来 纳 大 学 起 薪 最 高 的 专业 是 地 理学 ， 因 为 球星 迈克 尔 ' 乔丹 曾 就 读 于 此 ， 均 值 计 算 就 包 





含 了 这 个 “异常 值 ”。 


中 位 数 的 一 个 泛 化 概念 是 分 位 数 〈quantile) ， 它 表示 少 于 数据 中 特定 百分比 的 一 个 值 。( 中 


位 数 表示 少 于 50% 的 数据 的 一 个 值 。) 


def quantile(x, p): 
"""returns the pth-percentile value in X 
p_index = int(p * len(x)) 
return sorted(x)[p_index] 


quantile(num_ friends, 0.10) 
quantile(num_friends, 0.25) 
quantile(num_friends, 0.75) 
quantile(num_friends, 0.90) 
还 有 一 个 不 太 常 用 的 概念 众 数 (mode)， 它 是 指出 现 次 数 最 多 的 一 个 或 多 个 数 : 

def mode(x): 

"""returns a list, might be more than one mode"”"”" 

counts = Counter(x) 

max_count = max(counts.values()) 

return [x_i for x_i, count in counts.iteritems() 


if count == max_count] 


mode(num_friends) #1 和 6 


但 是 ， 最 常用 的 还 是 均值 。 


5.1.2 ”离散 度 

















离散 度 是 数据 的 离散 程度 的 一 种 度量 。 通 常 ， 如 有 果 它 所 统计 的 值 接近 零 ， 则 表示 数据 聚集 
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在 一 起 ， 离 散 程 度 很 小 ， 如 果 值 很 大 〈 无 论 那 意 味 着 什么 )， 则 表示 数据 的 离散 度 很 大 。 
例如 ， 一 个 简单 的 度量 是 极 差 (range)， 指 最 大 元 素 与 最 小 元 素 的 差 : 
# "range” 在 Python 中 已 经 有 特定 的 含义 ,所 以 我 们 换 一 个 不 同 的 名 字 


def data_range(x): 
return max(x) - min(x) 





data_range(num_friends) # 99 


极 差 恰好 为 零 ， 意 味 着 数据 集中 最 大 值 和 最 小 值 相等 ， 这 种 情形 只 有 在 x 中 的 元 素 全 部 相 
同时 才 会 发 生 ， 意 味 着 数据 没有 离散 。 相 反 ， 如 果 极 差 很 大 ， 说 明 最 大 元 素 比 最 小 元 素 大 
很 多 ， 数 据 离散 度 很 高 。 


和 中 位 数 一 样 ， 极 差 也 不 真正 依赖 于 整个 数据 集 。 一 个 只 包含 0 和 100 的 数据 集 ， 和 一 个 
包含 0、1 以 及 很 多 个 50 的 数据 集 ， 两 者 的 极 差 相同 。 但 看 起 来 第 一 个 数据 集 的 离散 度 
“应 该 ”更 高 。 























离散 度 的 另 一 个 更 复杂 的 度量 是 方差 (variance)， 计 算 方 式 如 下 : 


def de_mean(x) : 
"""translate x by subtracting its mean (so the result has mean 0)""" 
x_bar = mean(x) 
return [x_i - x_bar for x_i in x] 


def variance(x): 
"""assumes x has at least two elements""" 
n = Len(x) 
deviations = de_mean(x) 
return sum_of_squares(deviations) / (n - 1) 


variance(num_friends) # 81.54 


这 个 概念 看 起 来 似乎 是 各 个 数值 分 别 与 其 均值 之 差 的 平方 的 均值 ， 但 我 们 除 
以 的 是 n-1 而 不 是 n。 事 实 上 ， 如 果 样 本 取 自 更 大 的 总 体 ，x_bar 就 是 真实 均 
值 的 估 值 ， 意 味 着 (x_i - x_bar) ** 2 是 x_i 的 方差 对 均值 的 低估 值 ， 所 以 
我 们 除 以 n-1 而 不 是 n。 更 多 信息 请 查看 维基 百科 。 














现在 ， 无 论 我 们 的 数据 是 什么 单位 ( 即 “ 朋 友 ”)， 所 有 中 心 倾向 的 度量 都 是 同一 单位 。 极 
差 的 单位 也 与 此 相同 。 但 是 ， 方 差 的 单位 是 原 数据 单位 的 平方 〈 即 “平方 朋友 ”) 。 然 而 ， 
用 方差 很 难 给 出 直观 的 比较 ， 所 以 我 们 更 常 使 用 标准 差 (standard deviation ) : 














def standard_deviation(x): 
return math.sqrt(variance(x)) 


standard_deviation(num_friends) # 9.03 
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极 差 和 标准 差 也 都 有 我 们 之 前 提 到 的 均值 计算 常 遇 到 的 异常 值 问 题 。 再 看 之 前 的 例子 ， 如 
果 我 们 最 具 人 缘 的 用 户 有 200 个 朋友 ， 标 准 差 就 变 为 14.89， 增 加 了 60% | 


一 种 更 加 稳健 的 方案 是 计算 75% 的 分 位 数 和 25% 的 分 位 数 之 差 ; 


def interquartile_range(x): 
return quantile(x, 0.75) - quantile(x, 0.25) 


interquartile_range(num friends) # 6 


相对 来 说 ， 这 种 计算 不 易 受 到 一 小 部 分 异常 值 的 影响 。 


5.2 相关 


DataSciencester 战略 发 展 部 的 副 总 持 有 这 样 一 种 想法 ， 即 用 户 在 某 个 网 站 上 花费 的 时 间 与 
其 在 这 个 网 站 上 拥有 的 朋友 数 相关 (他 并 不 是 一 个 无 所 事 事 的 领导 )。 现 在 ， 他 要 求 你 来 


验证 这 个 想法 。 

















通过 分 析 研 究 流量 日 志 ， 你 设法 做 出 了 一 个 daily_minutes 列表 ， 这 个 列表 描述 了 每 个 用 
户 每 天 在 DataSciencester 花费 了 多 长 时 间 。 你 还 对 这 个 列表 排 了 序 ， 使 它 的 元 素 和 你 之 前 
的 列表 num_friends 的 元 素 对 应 了 起 来 ， 以 便 进 一 步 研究 两 个 度量 之 间 的 关系 。 


我 们 先 来 看 一 下 协 方差 (covariance)， 这 个 概念 是 方差 的 一 个 对 应 词 。 方 差 衡 量 了 单个 变 
量 对 均值 的 偏离 程度 ， 而 协 方差 衡量 了 两 个 变量 对 均值 的 串联 偏离 程度 : 








def covariance(x, y): 
n = Len(x) 
return dot(de_mean(x), de _mean(y)) / (n - 1) 


covariance(num_friends, daily_minutes) # 22.43 
































回想 一 下 点 乘 (dot) 的 概念 ， 它 意味 着 对 应 的 元 素 对 相 乘 后 再 求 和 。 如 果 向 量 x 和 向 量 y 
的 对 应 元 素 同 时 大 于 它们 自身 序列 的 均值 ， 或 者 同时 小 于 它们 自身 序列 的 均值 ， 那 将 为 求 
和 贡献 一 个 正 值 。 如 果 其 中 一 个 元 素 大 于 自身 的 均值 ， 而 另 一 个 小 于 自身 的 均值 ， 那 将 为 
求 和 贡献 一 个 负 值 。 因 此 ， 如 果 协 方差 是 一 个 大 的 正 数 ， 就 意味 着 如 果 y 很 大 ， 那 么 x 也 
很 大 ， 或 者 如 果 y 很 小 ， 那 么 x 也 很 小 。 如 果 协 方差 为 负 而 且 绝对 值 很 大 ， 就 意味 着 x 和 
y 一 个 很 大 ， 而 另 一 个 很 小 。 接 近 零 的 协 方差 意味 着 以 上 关系 都 不 存在 。 






































但 是 ， 这 个 数字 很 难 解释 ， 原 因 如 下 。 


。 它 的 单位 是 输入 单位 的 乘积 〈 即 朋友 -分 钟 -每 天 ), 难于 理解 。(“ 朋 友 一 分 钟 - 每 天 ” 
是 什么 鬼 ? ) 

。 如 果 每 个 用 户 的 朋友 数 增加 到 两 倍 〈 但 分 钟 数 不 变 ) ， 方 差 会 增加 至 两 倍 。 但 从 某 种 意 
义 上 讲 ， 变 量 的 相关 度 是 一 样 的 。 换 句 话 讲 ， 很 难说 “大 ”的 协 方差 意味 着 什么 。 
































TA 
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因此 ， 相 关 是 更 常 受到 重视 的 概念 ， 它 是 由 协 方差 除 以 两 个 变量 的 标准 差 : 


def correlation(x, y): 
stdev _x = standard_deviation(x) 
stdev_y = standard_deviation(y) 
if stdev x > 0 and stdevy > 0: 
return covariance(x, y) / stdev_x / stdev_y 
else: 


return 0 # 如 果 没 有 变动 ,相关 系数 为 零 


correlation(num_friends, daily_minutes) # 0.25 


相关 系数 没有 单位 ， 它 的 取 值 在 -1 (完全 反 相 关 ) 和 1 (完全 相关 ) 之 间 。 相 关 值 0.25 代 
表 一 个 相对 较 弱 的 正 相 关 。 


但 是 ， 我 们 忽略 了 对 数据 的 检查 。 看 图 5-2。 








有 异常 值 时 的 相关 系数 


100 


分 钟 /天 





朋友 数 











图 5-2: 有 异常 值 时 的 相关 系数 


图 中 那个 有 100 个 朋友 的 用 户 (每 天 只 在 网 上 花费 1 分 钟 ) 是 一 个 明显 的 异常 值 ， 相 关系 
数 的 计算 对 异常 值 非常 敏感 。 如 果 我 们 计算 时 希望 忽略 这 个 人 ， 该 怎么 做 呢 ? 如 下 所 示 : 
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outlier = num_friends.index(100) # outlier 的 索引 


num_friends_good = [x 
for i, x in enumerate(num_friends) 
if i != outlier] 


daily_minutes good = [x 
for i, x in enumerate(daily_minutes) 


if i != outlier] 


correlation(num_friends_good, daily_ minutes good) # 0.57 





排除 了 这 个 异常 值 ， 相 关 性 明显 增强 了 〈 见 图 5-3)。 








移 除 异常 值 之 后 的 相关 系数 


100 


分 钟 /天 





朋友 数 











图 5-3: 移 除 异常 值 之 后 的 相关 系数 


通过 进一步 调查 ， 你 发 现 这 个 异常 值 实际 上 仅仅 是 一 个 内 部 测试 账号 ， 因 而 没 人 对 移 除 它 
有 异议 。 这 样 你 就 可 以 理直气壮 地 删除 它 了 。 























= 不 hy 
5.3 辛普森 悖 论 
至 普 森 悖 论 是 指 分 析 数 据 时 可 能 会 发 生 的 意外 。 上 有 具体 而 言 ， 如 果 忽略 了 混杂 变量 ， 相 关系 
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数 会 有 误导 性 。 


例如 ,假设 你 先 将 所 有 会 员 分 成 东海 岸 数据 科学 家 和 西海 岸 数据 科学 家 两 类 ， 然 后 决定 验 
证 一 下 哪 一 边 诲 岸 的 数据 科学 家 更 友好 : 








西海 岸 101 8.2 
东海 岸 103 6.5 


很 明显 ， 西 海岸 的 数据 科学 家 比 东 海岸 的 数据 科学 家 更 招 人 喜欢 。 你 的 同事 还 可 以 给 出 许 
多 理由 解释 这 个 结果 : 或 许 是 阳光 、 咖 啡 、 有 机 农产品 ， 又 或 许 是 许 旋 的 太平 洋 风 光 。 


但 分 析 数 据 时 ， 你 却 发 现 了 一 些 奇怪 的 结论 。 如 果 你 仅仅 比较 拥有 博士 学 位 的 数据 科学 
家 ， 结 论 表 明 东 海岸 数据 科学 家 的 平均 朋友 数 更 多 。 如 果 再 仅仅 比较 没有 博士 学 位 的 数据 
科学 家 ， 结 论 仍然 是 东海 岸 的 数据 科学 家 平均 拥有 更 多 的 朋友 ! 


























海岸 位 成 员 数 平均 朋友 数 
西海 岸 博士 35 3.1 
东海 岸 博士 70 3.2 
西海 岸 非 博士 66 10.9 
东海 岸 非 博 士 33 13.4 





一 旦 你 考虑 了 用 户 的 学 位 ， 得 出 的 相关 系数 就 会 发 生变 化 ! 将 东海 岸 科 学 家 的 数据 和 西海 
岸 科学 家 的 数据 混同 起 来 ， 会 掩盖 一 件 事实 ， 即 东海 岸 数据 科学 家 更 偏向 博士 类 型 。 


这 种 现象 在 现实 世界 中 时 有 发 生 。 关 键 点 在 于 ， 相 关系 数 假设 在 其 他 条 件 都 相同 的 前 提 之 
下 衡量 两 个 变量 的 关系 。 而 当 数 据 类 型 变 成 随机 分 配 ， 就 像 置身 于 精心 设计 的 实验 之 中 
时 ,“ 其 他 条 件 都 相同 ”也 许 还 不 是 一 个 糟糕 的 前 提 假 设 。 但 如 果 存 在 男 一 种 类 型 分 配 的 
更 深 的 机 制 ,“ 其 他 条 件 都 相同 ”可 能 会 成 为 一 个 糟糕 的 前 提 假 设 。 


避免 这 种 窘境 的 唯一 务实 的 做 法 是 充分 了 解 你 的 数据 ， 并 且 尽 可 能 核查 所 有 可 能 的 混杂 因 
素 。 显 然 ， 这 不 可 能 万 无 一 失 。 如 果 你 没有 这 200 个 数据 科学 家 的 受 教育 程度 的 数据 ， 你 
很 可 能 就 已 经 得 出 了 西海 岸 的 数据 科学 家 天 生 更 有 社交 能 力 的 结论 。 


5.4 相关 系数 其 他 注意 事项 


相关 系数 为 零 表 示 两 个 变量 之 间 不 存在 线性 关系 。 但 它们 之 间 还 可 能 会 存在 其 他 形式 的 关 
系 。 例 如 ， 如 果 : 






































x [=2; = 0， 1， 2] 
y= [2, 1, 0, 1, 2] 
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那么 ,x 和 y 的 相关 系数 为 0。 但 容易 看 出 ，x 和 y 之 间 显 然 具 有 某 种 关系 一 y 中 的 每 个 
元 素 等 于 x 中 相应 元 素 的 绝对 值 。 然 而 ， 有 一 种 关系 它们 却 无 法 给 出 ， 即 x_i 和 mean(x) 
之 间 的 关系 与 yi 和 mean(y) 之 间 的 关系 并 没有 太 大 关联 。 这 是 一 种 相关 系数 试图 捕捉 的 
关系 。 


此 外 ， 相 关系 数 无 法 告诉 你 关系 有 多 强 。 例 如 : 














x = [-2, 1, 0, 1, 2] 
y = [99.98, 99.99, 100, 100.01, 100.02] 
以 上 这 两 个 变量 完全 相关 ， 但 〈 这 取决 于 你 想 度量 什么 ) 很 有 可 能 这 种 关系 并 没有 实际 意义 。 





5.5 ”相关 和 因果 


你 很 可 能 听 说 过 这 样 一 句 话 :“ 相 关 不 是 因果 。 这 样 的 说 辞 大 致 出 自 一 位 遇 到 了 一 堆 威 
胁 着 他 不 可 动摇 的 世界 观 的 数据 的 人 之 口 。 然 而 ， 这 是 个 重要 的 论断 一 一 如 果 x 和 >y 强 相 
关 ， 那 么 意味 着 可 能 x 引起 了 y， 或 y 引起 了 x， 或 者 两 者 相互 引起 了 对 方 ， 或 者 存在 第 三 
方 因 素 同 时 引起 了 x 和 y， 或 者 什么 都 不 是 。 
































回想 一 下 num_friends 和 daily_minutes 之 间 的 关系 。 如 果 DataSciencester 用 户 在 网 站 上 拥 
有 更 多 的 朋友 ， 可 能 会 引起 一 个 结果 ， 即 这 些 用 户 可 能 就 会 愿意 在 网 上 花费 更 多 的 时 间 。 
也 可 能 是 这 种 情形 : 如 果 每 个 朋友 每 天 发 布 一 定数 量 的 内 容 ， 那 么 用 户 的 朋友 越 多 ， 就 需 
要 越 多 的 时 间 来 浏览 朋友 们 的 更 新 。 


但 是 ， 也 有 这 样 一 种 可 能 。 你 泡 在 DataSciencester 论坛 上 的 时 间 越 长 ， 你 就 越 有 可 能 磁 上 
和 结识 志同道合 的 朋友 。 这 也 意味 着 ， 在 网 站 上 花费 时 间 越 多 ， 就 会 拥有 更 多 朋友 。 


第 三 种 可 能 是 ， 越 是 那些 热 囊 于 数据 科学 的 用 户 ， 就 越 喜欢 在 网 上 花 更 多 时 间 (因为 他 们 
发 现 这 更 有 趣 )， 并 且 更 乐于 结交 数据 科学 家 朋友 (因为 他 们 对 其 他 人 不 感冒 )。 


进行 随机 试验 是 证 实 因 果 关 系 的 可 靠 性 的 一 个 好 方法 。 你 可 以 先 将 一 组 具有 类 似 的 统计 数 
据 的 用 户 随机 分 为 两 组 ， 再 对 其 中 一 组 施加 稍微 不 同 的 影响 因素 ， 然 后 你 会 发 现 ， 不 同 的 
因素 会 导致 不 同 的 结果 。 





























比如 ， 如 果 你 不 介意 因 拿 用 户 做 试验 而 受 谴责 (http://www.nytimes.com/2014/06/30/technology/ 
facebook-tinkers-with-users-emotions-in-news-feed-experiment-stirring-outcry.html?_ r=0)， 可 以 随 
机 从 用 户 中 抽取 一 个 小 样本 ， 只 给 他 们 看 他 们 一 小 部 分 朋友 的 动态 更 新 。 如 果 这 个 小 样本 中 
的 用 户 在 网 上 花费 的 时 间 相 应 地 变 少 ， 那 么 你 就 可 以 肯定 “拥有 更 多 朋友 会 引起 上 网 时 间 变 
长 ”这 一 结论 了 。 











5.6 延伸 学 习 

。 SciPy (http://docs.scipy.org/doc/scipy/reference/stats.html)、 pandas (http://pandas.pydata. 
org/) 和 StatsModels (http://statsmodels.sourceforge.net/) 等 软件 都 含有 丰富 的 统计 函数 。 

。 统计 学 非常 重要 。( 或 者 说 ， 各 种 统计 资料 非常 重要 ? ) 如 果 你 想 成 为 一 名 优秀 的 数据 
科学 家 ， 最 好 先 熟 读 一 本 统计 学 教科 书 。 网 上 有 很 多 免费 资源 ， 其 中 我 比较 喜欢 的 有 : 


— Openlntro Statistics (https://www.openintro.org/stat/textbook.php) 





— OpenStax Introductory Statistics (http://openstaxcollege.org/textbooks/introductory- 


statistics) 








概率 法 则 大 致 上 是 真实 的 ， 但 某 些 时 候 会 很 荒 廖 。 
一 一 爱德华 .吉本 


如 果 对 概率 论 和 相关 的 数学 原理 理解 得 不 够 多 ， 从 事 数据 科学 工作 就 极其 困难 。 类 似 于 本 
书 第 5 章 讲解 统计 学 的 方式 ， 我 们 在 本 章 粗略 地 讲解 一 下 概率 论 ， 基 本 上 不 对 细节 做 深入 
探讨 。 














为 了 达到 我 们 的 目的 ， 你 得 把 概率 论 视 为 对 从 事件 空间 中 抽取 的 事件 的 不 确定 性 进行 量化 
的 一 种 方式 。 我 们 暂且 不 探究 术语 的 技术 内 狂 ， 而 是 用 掷 鹏 子 的 例子 来 理解 它们 。 空 间 是 
指 所 有 可 能 的 结果 的 集合 。 这 些 结果 的 任何 一 部 分 就 是 一 个 事件 ， 比 如 ,， “山子 帮 出 的 点 
数 为 ] “ 般 子 掷 出 的 点 数 是 偶数 ”等 都 是 事件 。 


我 们 用 P(E) 来 标记 “事件 的 概率 ”。 























我 们 接 下 来 用 概率 理论 构建 模型 ， 并 用 概率 理论 计算 模型 。 概 率 理论 无 处 不 在 。 
只 要 你 感 兴趣 ， 可 以 深入 控 气 概率 理论 理 含 的 哲学 原理 ( 边 蝎 啤酒 边 研究 就 更 好 了 )。 但 
本 书 中 我 们 不 深入 研究 。 

6.1 不 独立 和 独立 


泛泛 地 讲 ， 如 果 互 发 生意 味 着 已 发 生 (或 者 发 生意 味 着 E 发生)， 我们 就 称 事件 5 与 事 
件 羽 为 不 相互 独立 (dependent)。 反 之 , 与 政 就 相互 独立 (independent) 。 
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举 个 例子 ， 如 果 两 次 拓 起 一 枚 均匀 的 硬币 ， 那 么 我 们 无 法 根据 第 一 次 掷 硬币 的 结果 是 否 是 
正面 朝 上 来 判断 第 二 次 的 结果 是 否 正 面 朝 上 。 第 一 次 掷 硬 币 的 结果 和 第 二 次 扼 硬 币 的 结 
果 ， 这 两 个 事件 就 是 独立 的 。 相 反 ， 如 果 第 一 次 掷 硬币 的 结果 是 正面 彰 上 ， 那 么 我 们 能 很 
明显 能 判断 出 两 次 毛 硬 币 是 否 都 是 反面 朝 上 。( 如 果 第 一 次 撕 硬 币 的 结果 是 正面 朝 上 ， 那 
么 很 明显 两 次 掷 硬 币 的 结果 不 可 能 都 是 反面 朝 上 。) 因此 ， 第 一 次 结果 正面 朝 上 和 两 次 结 
果 不 可 能 都 是 反面 朝 上 ， 这 两 个 事件 就 是 不 独立 的 。 


从 数学 角度 讲 ， 事 件 E 和 事件 独立 意味 着 两 个 事件 同时 发 生 的 概率 等 二 它们 分 别 发 生 的 
概率 的 乘积 : 



































P(E, PF)=P(E)PD) 
在 上 例 中 ,“ 第 一 次 措 硬 币 正面 朝 上 ”的 概率 为 12,“ 两 次 掷 硬币 都 是 表面 彰 上 ”的 概率 
为 14， 但 “第 一 次 扼 硬 币 正面 朝 上 并 且 两 次 掷 硬币 都 是 背面 朝 上 ”的 概率 为 0。 


6.2 条件 概率 


如 有 果 事件 厂 与 事件 刁 独 立 ， 那 么 定义 式 如 下 : 


P(E, PP(E)PA) 
如 果 两 者 不 一 定 独立 〈 并 且 环 的 概率 不 为 零 ) ， 那 么 互 关 于 环 的 条 件 概率 式 如 下 : 


P(EIF)=P(E, FY/P(F) 
条 件 概 率 可 以 理解 为 ， 已 知己 发 生 , 匹 会 发 生 的 概率 。 


更 常用 的 公式 是 上 式 的 变形 : 























P(E, F)=P(EIF)P(F) 
如 果 巨 和 严 独 立 ， 则 上 式 应 该 表示 为 


P(EIF)=P(E) 
这 个 数学 公式 意味 着 ， 是否 发 生 并 不 会 影响 是 否 发 生 的 概率 。 


举 一 个 常见 的 关于 一 个 有 两 个 孩子 (性 别 未 知 ) 的 家 庭 的 有 趣 例子 。 
如 果 我 们 假设 : 











(1) 每 个 孩子 是 男孩 和 是 女孩 的 概率 相同 
(第 二 个 孩子 的 性 别 概率 与 第 一 个 孩子 的 性 别 概率 独立 


那么 ， 事 件 “ 没 有 女孩 ”的 概率 是 1/4， 事件 “一 个 男孩 ， 一 个 女孩 ”的 概率 为 /2， 事 件 
“两 个 女孩 ”的 概率 为 1/4。 


现在 ,我 们 的 问题 是 ， 事 件 8“ 两 个 孩子 都 是 女孩 ”关于 事件 C“ 大 孩子 是 女孩 ”的 条 件 





概率 | 65 


概率 是 多 少 ? 用 条 件 概率 的 定义 式 进行 计算 如 下 : 
P(BIG)=P(B, G)/P(G)=P(B)YP(G)=1/2 
事件 B 与 G 的 交集 (“两 个 孩子 都 是 女孩 并 且 大 护 子 是 女孩 ”) 刚好 是 事件 B 本 身 。( 一 旦 
你 知道 两 个 孩子 都 是 女孩 ， 那 大 孩子 必然 是 女孩 。) 
这 个 结果 大 致 上 符合 你 的 直觉 。 


我 们 接着 再 问 ， 事 件 “ 两 个 孩子 都 是 女孩 ”关于 事件 “至 少 一 个 孩子 是 女孩 ”(L) 的 条 件 
概率 是 多 少 ? 出 乎 意料 的 是 ， 结 果 异 于 前 问 。 




















与 前 问 相 同 的 是 ， 事 件 B 和 事件 工 的 交集 (“两 个 孩子 都 是 女孩 ， 并 且 至 少 一 个 孩子 是 女 
孩 ") 刚好 是 事件 B。 这 意味 着 : 
P(BIL)=P(B, LY/P(L=P(BYP(L)=173 
为 什么 会 有 这 样 的 结果 ? 如 果 你 已 知 至 少 一 个 孩子 是 女孩 ， 那 么 这 个 家 庭 有 一 个 男孩 和 一 

个 女孩 的 概率 是 有 两 个 女孩 的 两 倍 。 


我 们 可 以 通过 “生成 ”许多 家 庭 来 验证 这 个 结论 ; 





def random_kid(): 
return random.choice(["boy", "girl"]) 


both_girls = 0 
oLder gtirL = 0 
either _ gtirL = 0 


random.seed(0) 
for _ in range(10000) : 
younger = random_kid() 
older = random_kid() 
if older == "girl": 
older_girl += 1 


if older == "girl" and younger == "girl": 
both_girls += 1 
if older == "girl" or younger == "girl": 


either_girl += 1 


print "P(both | older):", both_girls / older_girl # 0.514 ~ 1/2 
print "P(both | either): ", both_girls / either_girL # 0.342 ~ 1/3 


6.3” 贝 叶 斯 定理 


贝 叶 斯 定理 是 数据 科学 家 的 最 佳 朋友 之 一 ， 它 是 条 件 概率 的 某 种 逆 运 算 。 假 设 我 们 需要 计 
算 事 件 忆 基于 已 发 生 的 事件 五 的 条 件 概 率 ， 但 我 们 已 知 的 条 件 仅仅 是 事件 下 基于 已 发 生 的 
事件 EE 的 条 件 概 率 。 两 次 利用 条 件 概率 的 定义 ， 可 以 得 到 下 式 : 
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P(EIF) = P(E, FYP(F) = PHEPEY PA) 
事件 F 可 以 分 割 为 两 个 互 不 重合 的 事件 “Ff 和 同时 发 生 ” 与 “FF 发生 EE 不 发 生 ”"。 我 们 
用 符号 了"E 指 代 “ 非 &”( 即 “EE 没有 发 生 ")， 有 下 式 : 





P(F) = P(F,E) + P(F,nE) 
因此 : 
P(EIF) = PHIEYP(EYPEIEPE) +PH EP HE) 
上 式 为 贝 叶 斯 定理 常用 的 表达 方式 。 

















贝 叶 斯 定理 常常 用 来 证 明 为 什么 数据 科学 家 比 医生 更 聪明 。 假 设 有 这 样 一 种 病 ，10 000 个 
人 中 会 有 一 个 得 这 个 病 。 还 假设 有 种 针对 该 病 的 测试 ， 具有 99% 的 可 能 性 能 给 出 正确 判断 
(如 果 患 病 ， 测 试 显示 “有 病 ”， 如 果 健康 ， 则 显示 “无 病 ”)。 


阳性 的 测试 结果 意味 着 什么 呢 ?” 我 们 用 7 表示 “测试 结果 阳性 ”， 用 DD 表示 “你 患 有 该 
病 ”"。 那 么 ， 根 据 贝 叶 斯 定理 ， 如 果 测 试 结果 为 阳性 ， 那 么 你 患 有 该 病 的 概率 是 : 

















PDID) = PTD)PDYPANDPD) PTIHID)PHD) 
我 们 知道 ，P(T |D)， 即 一 个 人 测试 结果 为 阳性 并 且 本 人 实际 患 病 的 概率 为 0.99。P(D)， 即 
一 个 人 实际 患 病 的 概率 是 1/10 000=0.0001 。P(7 |-D)， 即 一 个 不 患 病 的 人 检测 结果 呈 阳 性 
的 概率 是 0.01 。P(TD)， 即 一 个 人 实际 上 不 患 该 病 的 概率 为 0.9999 。 如 果 将 以 上 数据 代入 
贝 叶 斯 定理 ， 可 得 : 




















P(DIT) = 0.98% 
结果 表示 ， 测 试 结果 为 阳性 的 人 实际 患 病 的 概率 不 到 1%。 


移 除 异 常 值 之 后 的 相关 系数 我 们 实际 上 假设 了 人 们 接受 测试 的 概率 或 多 或 少 
都 是 随机 的 。 如 果 只 有 表现 出 特定 症状 的 人 才 会 去 接受 测试 ， 我 们 应 该 将 表 
达 式 重新 表达 为 基于 事件 “测试 结果 正常 ， 并 且 表 现 出 证 状 ” 的 条 件 概率 ， 
这 样 计算 出 的 结果 会 增高 很 多 。 
































对 于 数据 科学 家 来 说 ， 这 是 小 菜 一 碟 ， 但 大 部 分 医生 会 猜测 P(D ID) 的 值 接近 2。 


一 个 更 直观 的 计算 方式 是 ， 首 先 假设 总 体 包 括 1 百 万 个 人 。 你 预期 其 中 100 个 人 患 有 该 
病 ， 而 这 100 个 人 中 会 有 99 个 测试 结果 显示 阳性 。 另 一 方面 ， 你 认为 999 900 个 人 不 患 
有 该 病 ， 其 中 9999 个 人 测试 结果 呈 阳 性 。 这 意味 着 在 (99+9999) 个 测试 结果 呈 阳 性 的 人 
中 ， 你 认为 仅 有 99 个 人 实际 上 患 有 该 病 。 
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6.4 随机 变量 


随机 变量 指 这 样 一 种 变量 ， 其 可 能 的 取 值 有 一 种 联合 概率 分 布 。 定 义 一 个 简单 的 随机 变 
量 : 掷 起 一 枚 硬币 ， 如 果 正 面 朝 上 ， 随 机 变量 等 于 1， 如 果 背 面 朝 上 ， 随 机 变量 等 于 0。 
可 以 再 定义 更 复杂 些 的 随机 变量 ， 如 掷 起 一 枚 硬币 10 次 ， 查 看 正面 朝 上 的 次 数 ， 或 者 从 
range(10) 取出 的 一 个 值 ， 每 个 数值 被 取 到 的 可 能 性 都 相等 。 


联合 分 布 对 变量 实现 每 种 可 能 值 都 赋予 了 概率 。 通 过 掷 硬币 得 到 的 随机 变量 等 于 0 的 概率 
为 0.5， 等 于 1 的 概率 也 为 0.5。 从 range(16) 中 生成 随机 变量 的 分 布 为 从 0 到 9 之 间 的 每 
个 数值 赋予 0.1 的 概率 。 


我 们 有 时 会 讨论 一 个 随机 变量 的 期 望 值 ， 表 示 这 个 随机 变量 可 能 值 的 概率 加 权 值 。 撕 硬币 
随机 变量 的 期 望 值 为 /2(=0 * 1/2+ 1 * 1/2)， 而 range(19) 随机 变量 的 期 望 值 为 4.5。 



































随机 变量 也 可 以 基于 某 些 条 件 事 件 产生 ， 就 像 其 他 事件 一 样 。 回 忆 6.2 节 “ 条 件 概 率 ” 中 
提 到 的 双生 子 例子 : 如 果 了 是 表示 女孩 个 数 的 随机 变量 ， 那 么 民 等 于 0 的 概率 为 /4 ， 等 
于 1 的 概率 为 12 ， 等 于 2 的 概率 为 1/4。 


在 已 知 至 今 一个 护 了 是 女孩 后 ， 接 着 再 定义 一 个 新 的 随机 变量 了 表示 基于 这 个 条 件 的 女 
孩 的 个 数 。 了 等 于 1 的 概率 为 203， 等 于 2 的 概率 为 13 。 还 定义 另 一 个 新 的 随机 变量 Z， 
表示 基于 大 孩子 是 女孩 的 条 件 之 上 的 女孩 的 个 数 ，Z 等 于 1 的 概率 为 /2 ， 等 于 2 的 概率 
为 1/2。 


大 部 分 情况 下 ， 我 们 会 隐 式 使 用 随机 变 ee 并 没有 对 此 加 以 特别 关 
注 。 如 果 仔 细 思 芳 ， 可 以 看 出 其 中 的 端 


6.5 连续 分 布 


掷 硬币 对 应 的 是 离散 分 布 (discrete distribution ) 对 离散 的 结果 赋予 正 概 率 。 我 们 常常 
希望 对 连续 结果 的 分 布 进行 建 模 。( 对 于 我 们 的 研究 目的 来 说 ， 这 些 结果 最 好 都 是 实数 ， 
但 实际 中 并 不 总 是 这 样 的 ) 人 例如， 均匀 分 布 (uniform distribution) 函数 对 0 到 1 之 间 的 所 
有 值 都 赋予 相同 的 权重 (weight)。 


因为 0 和 1 之 间 有 无 数 个 数字 ， 因 而 对 每 个 点 而 言 ， 赋 予 的 权重 几乎 是 零 。 因 此 ， 我 们 用 
带 概率 密度 函数 (probability density function，pdf) 的 连续 分 布 来 表示 概率 ， 一 个 变量 位 
于 某 个 区 间 的 概率 等 于 概率 密度 国 数 在 这 个 区 间 上 的 积 4 



































如 果 积 分 运算 不 直观 ， 有 一 种 更 简单 的 理解 方式 : 一 个 分 布 的 密度 函数 为 
如 果 玉 很 小 ， 则 变量 的 值 落 在 x 与 x+ 之 间 的 概率 接近 h* fx)。 

















均匀 分 布 的 密度 函数 如 下 : 


def uniform_pdf(x) : 
return 1 if x >= 0andx< 1 else 0 


如 你 预期 的 ， 一 个 服从 均匀 分 布 的 随机 变量 落 在 0.2 和 0.3 之 间 的 概率 为 /10。 在 Python 
中 ，random.random() 是 按 均匀 分 布 生成 的 伪 随 机 数 的 国 数 。 





我 们 还 常常 对 累积 分 布 函数 (cumulative distribution function，cdf) 感 兴趣 ， 这 个 函数 给 
出 了 一 个 随机 变量 小 于 等 于 某 一 特定 值 的 概率 。 生 成 均匀 分 布 的 累积 分 布 函数 不 难 ( 见 图 
6-1) : 

















def uniform cdf(x): 
"returns the probability that a uniform random variable is <= x" 
if x < 0: return 0 # 均匀 分 布 的 随机 变量 不 会 小 于 0 
elif x < 1: return x # e.g. P(X <= 0.4) = 0.4 
else: return 1 # 均匀 分 布 的 随机 变量 总 是 小 于 1 








均匀 4 分 布 的 紫 积 分布 函 数 

















: 均匀 分 布 的 累积 分 布 加 数 


6.6 正 态 分 布 


正 态 分 布 是 分 布 之 王 ! 它 是 典型 的 钟 型 曲线 形态 分 布 函 数 ， 可 以 完全 由 两 个 参数 决定 : 
均值 ww (mu) 和 标准 差 o (sigma)。 均 值 描 述 钟 型 曲线 的 中 心 ， 标 准 差 描述 曲线 有 多 
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正 态 分 布 的 分 布 国 数 如 下 : 





f(x| 10)= i oo| 4 | 


我 们 可 以 这 样 实现 : 
def normal_pdf(x, mu=0, sigma=1): 


sqrt_two_pi = math.sqrt(2 * math.pi) 
return (math.exp(-(x-mu) ** 2 / 2 / sigma ** 2) / (sqrt_two_pi * sigma)) 





在 图 6-2 中 我 们 绘 出 了 这 些 概率 密度 函数 ， 来 看 看 它们 的 形状 如 何 : 


xs = [x / 10.0 for x in range(-50, 50)] 

plt.plot(xs, [normal_pdf(x,sigma=1) for x in xs],'-',label='mu=0,sigma=1') 
plt.plot(xs, [normal_pdf(x,sigma=2) for x in xs],'--',label='mu=0,sigma=2') 
plt.plot(xs, [normal_pdf(x,sigma=0.5) for x in xs],':',Llabel='mu=0,sigma=0.5') 
plt.plot(xs, [normal_pdf(x,myu=-1) for x in xs],'-.',label='mu=-1,sigma=1') 
plt. Legend() 

plt.title(" 多 个 正 态 分 布 的 概率 密度 函数 ") 

plt.show() 
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6-2: 多 个 正 态 分 布 的 概率 密度 函数 


如 果 y=0 并且 o=1， 这 个 分 布 称 为 标准 正 态 分 布 。 如 果 Z 是 服从 标准 正 态 分 布 的 随机 变 
量 ， 则 有 如 下 转换 式 : 


























X=oZ+n 





其 中 对 也 是 正 态 分 布 ， 但 均值 是 4， 标 准 差 是 c。 相 反 ， 如 果 了 是 均值 为 标准 差 为 c 的 
正 态 分 布 ， 那 么 : 

2=(X—u)/o 
是 标准 正 态 分 布 的 随机 变量 。 


标准 正 态 分 布 的 累积 分 布 国 数 无 法 用 “基本 ”的 解析 形式 表示 ， 但 在 Python 中 可 以 用 函数 
math.erf 描述 : 





def normal_cdf(x, mu=0,sigma=1): 
return (1 + math.erf((x - mu) / math.sqrt(2) / sigma)) / 2 














我 们 再 绘 出 一 系列 概率 累积 分 布 函数 (如 图 6-3) : 





xs = [x / 10.0 for x in range(-50, 50)] 

plt.plot(xs, [normal_cdf(x,sigma=1) for x in xs],'-',label='mu=0,sigma=1') 
plt.plot(xs, [normal_cdf(x,sigma=2) for x in xs],'--',label='mu=0,sigma=2') 
plt.plot(xs, [normal_cdf(x,sigma=0.5) for x in xs],':',label='mu=0,sigma=0.5') 
plt.plot(xs,[normal_cdf(x,mu=-1) for x in xs],'-.',label='mu=-1,sigma=1') 
plt.legend(loc=4) # 底部 右边 

plt.title(" 多 个 正 态 分 布 的 累积 分 布 函 数 ") 

plt.show() 
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图 6-3: 多 个 正 态 分 布 的 累积 分 布 函 数 








我 们 有 时 会 需要 对 normal_cdf 取 逆 ， 从 而 可 以 求 出 特定 的 概率 的 相应 值 。 不 存在 计算 逆 国 
数 的 简便 方法 ， 但 由 于 normal_cdf 连续 且 严 格 递增 ， 因 而 我 们 可 以 使 用 二 分 查找 (https:// 
en.wikipedia.org/wiki/Binary_search_algorithm) 的 方法 : 





def inverse_normaL_cdf(p，mu=0，sigma=1，toLerance=0.00001) : 
"""find approximate inverse using binary search""" 
# 如 果 非 标准 型 , 先 调整 单位 使 之 服从 标准 型 
if mu != 0 or sigma != 1: 
return mu + sigma * inverse_normal_cdf(p, tolerance=tolerance) 





























low_z, low_p = -10.0, 0 # normal_cdf(-10) 是 ( 韭 常 接近 )0 
hi z, hi_p 10.0, 1 # normal_cdf(10) 是 (非常 接近 )1 
while hi_z - low z > tolerance: 
mid z = (lowz + hiz)/2 # 考虑 中 点 
mid p = normal_cdf(mid z) # 和 cdf 在 那里 的 值 
if mid p < p: 
# midpoint 仍 然 太 低 , 搜 索 比 它 大 的 值 
low z, low p = mid z, mid_p 
elif mid p > p: 
# midpoint 仍 然 太 高 ,搜索 比 它 小 的 值 
hi z, hi _p = mid z, mid_p 
else: 
break 




















return mid_z 


这 个 函数 反复 分 割 区 间 ， 直 到 分 制 到 一 个 足够 接近 于 期 望 概 率 的 精细 的 Z 值 。 


6.7 中心 极限 定理 


正 态 分 布 的 运用 如 此 广泛 ， 很 大 程度 上 归功 于 中 心 极限 定理 (central limit theorem)。 这 个 
定理 说 ， 一 个 定义 为 大 量 独 立 同 分 布 的 随机 变量 的 均值 的 随机 变量 本 身 就 是 接近 于 正 态 分 
布 的 。 


特别 地 ， 如 果 xz 都 是 均值 为 4、 标 准 差 为 c 的 随机 变量 ， 且 对 很 大 ， 那 么 : 








1 
(XI 十 二 xn) 


近似 正 态 分 布 ， 且 均值 为 x， 标 准 差 为 oc/ Vn 。 等 价 于 (其实 更 常用 ) : 
(0 +t x )— Un 
ovn 
上 式 近 似 正 态 分 布 ， 均 值 为 0 ， 标 准 差 为 1。 


举 一 个 易于 理解 的 验证 例子 一 一 带 有 n 和 p 两 个 参数 的 二 项 式 随机 变量 。 一 个 二 项 式 随机 
变量 Binonimal(n,p) 是 n 个 独立 伯 努 利 随机 变量 Bernoulli(p) 之 和 ， 每 个 伯 努 利 随 机 变量 等 
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于 1 的 概率 是 p， 等 于 0 的 概率 是 1-p: 


def bernoulli_ trial(p): 


return 1 if random.random() < p else 0 


def binomial(n, p): 


每 个 人 








白 努 利 随机 变量 Bernoulli(p) 的 均值 为 p， 标 准 差 为 / p (1 一 p)。 根 据 中 心 极限 定型 
当 n 变 得 很 大 ， 一 个 二 项 式 随机 变量 Binonimal(n,p) 近似 于 一 个 正 态 分 布 的 随机 变量 


return sum(bernoulli trial(p) for _ in range(n)) 

















? 


Th 和 引 




















县 ， 





中 均值 为 =np， 标 准 差 为 o = y np (1 一 p) 。 如 果 把 两 个 分 布 都 在 图 上 绘 出 来 ， 很 容易 看 


出 相似 性 : 














def make_hist(p, Nn, num_points): 


比如 ， 若 调用 函数 make_hist(9.75，169，16909)， 可 以 得 到 图 6-4 中 的 图 。 


data = [binomial(n, p) for _ in range(num_points)] 








# 用 条 形 图 绘 出 实际 的 二 项 式样 本 
histogram = Counter(data) 
plt.bar([x - 0.4 for x in histogram.keys()]， 


[v / num_points for v in histogram.values()], 
0.8， 


color='0.75') 








mu=p*n 
sigma = math.sqrt(n * p * (1 - p)) 


# 用 线形 图 绘 出 正 态 近似 

xs = range(min(data), max(data) + 1) 

ys = [normal_cdf(i + 0.5, mu, sigma) - normal_cdf(i - 0.5, mu, sigma) 
for i in xs] 

plt.plot(xs,ys) 

plt.title(" 二 项 分 布 与 正 态 近 似 ") 

plt.show() 
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二 项 分 布 与 正 态 近似 
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0.02 
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6-4: make_hist 的 结果 





近似 表达 的 意义 在 于 ， 如 果 你 想 知道 拨 起 一 枚 均匀 的 硬币 100 次 中 正面 朝 上 超过 60 次 的 
概率 ， 那 么 可 以 用 一 个 正 态 分 布 Normal(50, 5) 的 随机 变量 大 于 60 的 概率 来 估计 。 这 比 计 
算 二 项 式 分 布 Binonimal(100, 0.5) 的 累积 分 布 国 数 更 容易 (尽管 在 大 多 数 应 用 中 ， 你 可 以 
借助 统计 软件 方便 地 计算 出 任何 你 想 要 的 概率 )。 


6.8 延伸 学 习 

。 scipy.stats (http://docs.scipy.org/doc/scipy/reference/stats.html) 包括 绝 大 多 数 常 见 概率 分 
布 的 概率 密度 函数 和 累积 分 布 国 数 。 

。 在 第 5 章 末 我 曾 建议 读者 学 习 统 计 学 教材 ， 同 样 ， 这 里 我 也 建议 读者 学 习 概 率 论 教 
材 。 我 所 知道 的 最 好 的 在 线 教 材 是 Introduction to Probability (http://www.dartmouth. 
edu/~chance/teaching_aids/books_articles/probability_book/amsbook.mac.pdf) 。 
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假设 与 推断 


深 说 统计 之 道 ， 方 为 人 中 之 龙 。 


一 一 萧 伯 纳 


具备 以 上 统计 学 和 概率 理论 知识 以 后 ， 我 们 接着 该 做 什么 呢 ? 数据 科学 的 科学 部 分 ， 乃 是 
不 断 针 对 我 们 的 数据 和 生成 数据 的 机 制 建立 假设 和 检验 假设 。 


7.1 统计 假设 检验 


作为 数据 科学 家 ， 我 们 常常 需要 检验 某 个 假设 是 否 成 立 。 





有 时 ， 假 设 是 诸如 “这 枚 硬币 是 











均匀 的 ”“ 数 据 科学 家 喜欢 Python 胜 过 R” 或 “如 果 人 们 点 开 茶 个 突然 弹出 的 小 广告 ， 
告 的 关闭 按钮 又 小 又 难 找 ， 那 么 大 家 更 倾向 于 离开 这 个 页 面 ， 压 根 不 会 阅读 ”等 可 以 被 翻 
译 成 统计 数据 的 断言 。 在 各 种 各 样 的 假设 之 下 ， 这 些 统计 数据 可 以 理解 为 从 某 种 已 知 分 布 
中 抽取 的 随机 变量 观测 值 ， 这 可 以 让 我 们 对 这 些 假设 是 否 成 立 做 出 论断 。 









































典型 的 步骤 是 这 样 的 ， 首 先 我 们 有 一 个 零 假 设 有 ， 它 代表 一 个 默认 的 立场 ， 而 禁 代 假设 
HH 代表 我 们 希望 与 零 假 设 对 比 的 立场 。 我 们 通过 统计 来 决定 我 们 是 否 可 以 拒绝 有 6， 即 判 








断 它 是 否 错误 。 通 过 举例 能 更 直观 地 说 明 这 个 过 程 。 


7.2 案例: 掷 硬 币 


假设 有 一 枚 硬币 ， 我 们 试图 判断 它 是 否 均匀 ， 即 任何 一 














下 朝 上 的 可 能 性 是 否 相等 。 首 先 ， 








假设 硬币 落地 后 正面 朝 上 的 概率 为 p， 所 以 我 们 的 零 假设 为 硬币 均匀 ， 即 p=0.5。 我 们 要 对 
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比 奉 代 假 设 zz0.5 来 检验 这 个 假设 。 


有 具体 来 说 ， 首 先 掷 硬币 半 次 ， 将 出 现 正面 朝 上 的 次 数 记 为 筷 每 次 扼 硬 币 都 是 一 次 伯 努 利 
试验 ， 意 味 着 了 是 二 项 式 随机 变量 Binomial(n,p)，( 正 如 第 6 章 中 所 讲 到 的 ) 可 以 用 正 态 
分 布 来 拟 合 : 


def 








normal_approximation_to_binomial(n, p): 

"""finds mu and sigma corresponding to a Binomial(n, p) 
mu=p*n 

sigma = math.sqrt(p * (1 - p) * n) 

return muy, sigma 


mm 


只 要 一 个 随机 变量 服从 正 态 分 布 ， 我 们 就 可 以 用 normal_cdf 来 计算 出 一 个 实现 数值 位 于 
(或 不 在 ) 某 个 特定 区 间 的 概率 : 


# 正 态 cdf 是 一 个 变量 在 一 个 病 值 以 下 的 概率 
normal_probability_ below = normal_cdf 











# 如 果 它 不 在 国 值 以 下 ,就 在 国 值 之 上 


def 





normal_probability_above(lo, mu=0, sigma=1): 
return 1 - normal_cdf(lo, mu, sigma) 


# 如 果 它 小 于 hi 但 不 比 to 小 ,那么 它 在 区 间 之 内 


def 


normal_probability_between(lo, hi, mu=0, sigma=1): 
return normal_cdf(hi, mu, sigma) - normal_cdf(lo, mu, sigma) 








# 如 果 不 在 区 间 之 内 ,那么 就 在 区 间 之 外 


def 


normal_probability outside(lo, hi, mu=0, sigma=1): 
return 1 - normal_probability_between(lo, hi, mu, sigma) 





或 者 反 过 来 ， 找 出 非 尾 区 域 ， 或 者 找 出 均值 两 边 的 (对称) 区 域 ， 这 个 区 域 恰好 对 应 特定 
比例 的 可 能 性 。 比 如 ， 如 果 我 们 需要 找 出 以 均值 为 中 心 、 履 盖 60% 可 能 性 的 区 间 ， 那 我 们 
需要 找到 两 个 截 点 ， 使 上 尾 和 下 尾 各 覆盖 20% 的 可 能 性 (给 中 间 留 出 60%) : 


def 


def 


def 





normal_upper_bound(probability, mu=0, sigma=1): 
"""returns the z for which P(Z <= z) = probability 
return inverse normal_cdf(probability, mu, sigma) 


Mmm 


normal_lower_bound(probability, mu=0, sigma=1): 
"""returns the z for which P(Z >= Zz) = probability 
return inverse normal_cdf(1 - probability, mu, sigma) 


Mam 


normal_two_sided bounds(probability, mu=0, sigma=1): 
"""returns the symmetric (about the mean) bounds 


that contain the specified probability 
tail_probability = (1 - probability) / 2 


# 上 界 应 有 在 它 之 上 的 tail_probability 
upper_bound = normal_lower_bound(tail_probability, mu, sigma) 








# 下 界 应 有 在 它 之 下 的 tail_probability 





Lower_bound = normal_upper_bound(tail_probability, mu, sigma) 


return lower_bound, upper_bound 

















具体 来 讲 ， 首 先 我 们 选择 掷 硬币 n=1000 次 。 如 果 关 于 均匀 的 原 假 设 是 正确 的 ， 那 么 X 近 
似 服从 正 态 分 布 ， 均 值 为 50， 标 准 差 为 15.8: 


muy_0, sigma 0 = normal_approximation_to_binomial(1000, 0.5) 


我 们 需要 对 显著 性 (significance) 下 定义 一 一 我 们 有 多 大 的 可 能 性 犯 第 1 类 错误 (“ 容 
ee 我 们 拒绝 了 原 假设 有 ， 但 实际 上 原 假设 是 正确 的 。 出 于 历史 上 的 某 
些 原因 ， 可 能 性 的 大 小 通常 设 定 为 5% 或 者 1%。 本 书 在 此 选择 5%。 

















考虑 这 样 的 检验 一 一 如 果 式 落 在 以 下 区 间 以 外 ， 就 拒绝 原 假设 瓦 : 





normal_two_sided_bounds(0.95, mu_0, sigma 0) # (469, 531) 


假设 p 实际 上 等 于 0.5 ( 即 ， 此 时 到 成 立 )， 那 么 我 们 有 5% 的 可 能 观测 到 工 落 在 区 间 之 
外 ， 这 正 是 我 们 想 要 的 显著 性 。 换 句 话 说， 如 果 也 为 真 ， 那 么 20 次 检验 中 大 约 有 19 次 
会 得 出 正确 的 结果 。 


























> 








我 们 常常 对 检验 的 势 (power) 有 兴趣 ， 它 指 的 是 不 犯 第 2 类 错误 的 概率 。 第 2 类 错误 指 
原 假设 思 是 错 的 ， 但 我 们 的 检验 结果 没有 拒绝 原 假设 ( 即 “ 纳 伪 ")。 为 了 衡量 统计 的 势 ， 
我 们 需要 精确 衡量 思 是 错 的 意味 着 什么 。( 仅 仅 知道 p 不 是 0.5 不 足以 为 的 分 布 提供 足 
够 的 信息 。) 具体 来 说 ,假如 p 实际 上 是 0.55， 那 么 撕 硬 币 的 结果 会 稍微 多 偏向 正面 朝 上 。 


在 这 种 情形 下 ， 我 们 这 样 计算 检验 的 势 : 


# 基于 假设 p 是 9.5 时 95% 的 边界 


lo, hi = normal_two_sided bounds(0.95, mu _ 0, sigma_0) 




















# 基于 p = 0.55 的 真实 mu 和 sigma 
myu_1, sigma_1 = normal_approximation_to_binomial(1000, 0.55) 


# 第 2 类 错误 意味 着 我 们 没有 拒绝 原 假设 
# 这 会 在 X 仍 然 在 最 初 的 区 间 时 发 生 
type_2_probability = normal_probability_between(lo, hi, my_1, sigma_1) 




















power = 1 - type_2_probabiLity # 0.887 
如 果 我 们 把 原 假设 变 为 斤 硬 币 的 结果 不 会 偏重 于 正面 朝 上 ， 即 P < 0.5， 在 这 种 情形 下 ， 




















我 们 使 用 单 边 检验 。 如 果 了 半 远 大 于 50， 我 们 就 拒绝 原 假设 ， 如 果 针 小 于 50， 就 不 拒绝 原 
假设 。 因 此 ， 显 理性 为 5% 的 检验 需要 使 用 normal_probability_below 来 找 出 小 于 95% 的 
概率 对 应 的 截 点 : 














hi = normaL_upper_bound(0.95，mu_0，Ssigma_0) 
# 是 526 (< 531， 因 为 我 们 在 上 尾 需要 更 多 的 概率 ) 
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type_2_probability = normal_probability_below(hi, myu_1, sigma_1) 
power = 1 - type 2_probability # 0.936 

















这 是 更 有 效 的 检验 。 如 果 针 小 于 469， 我 们 就 不 再 拒绝 及 (如果 厂 为 真 ， 这 不 太 可 能 发 
生 )， 当 在 526 和 531 之 间 时 则 拒绝 及 (如果 玉 为 真 ， 这 很 有 可 能 发 生 )。 


进行 上 述 检验 的 另 一 种 方式 涉及 p 值 。 我 们 不 再 基于 某 个 概率 截 点 选择 临界 值 ， 而 是 计算 
概率 一 一 假设 正确 一 一 我 们 可 以 找到 一 个 至 少 与 我 们 实际 观测 到 的 值 一 样 极端 的 值 。 


对 于 硬币 是 否 均匀 的 双 面 检验 ， 我 们 可 以 做 以 下 计算 : 

















def two_sided_p_vaLue(x，mu=0，sigma=1) : 
if x >= mu: 
# 如 果 x 大 于 均值 ,tail 表 示 比 x 大 多 少 
return 2 * normal_probability_above(x, mu, sigma) 
else: 
# 如 果 x 比 均值 小 ,tail 表 示 比 x 小 多 少 


return 2 * normal_probability_below(x, mu, sigma) 


如 果 我 们 希望 看 到 结果 中 有 530 次 为 正面 朝 上 ， 可 以 这 样 计算 : 





two_sided_p_value(529.5, mu_0, sigma_ 0) # 0.062 


为 什么 我 们 用 529.5 而 不 用 530? 这 就 是 所 谓 的 连续 校正 (continuity 
correction) 。 它 反映 了 一 个 事实 ， 即 对 从 掷 硬 币 结果 中 看 到 530 次 正面 朝 上 
的 概率 而 言 ，normal_probability_between(529.5，530.5，mu_0,sigma_0) 是 
比 normaL_probabiLity_between(530，531，mu_0，sigma_0) 更 好 的 估计 。 





相应 地 ，normaL_probabiLity_above(529.5，mu_0，sigma_0) 是 看 到 至 少 530 
次 正面 朝 上 概率 的 更 好 估计 。 你 可 以 在 通过 代码 生成 的 图 6-4 中 看 到 。 








验证 这 种 观点 是 否 合理 的 一 个 方法 是 模拟 : 


extreme_value count = 0 
for _ in range(100000): 
num_heads = sum(1 if random.random() < 0.5 else 0 # 正面 朝 上 的 计数 








for _ in range(1000)) # 在 1000 次 抛掷 中 
if num_heads >= 530 or num_heads <= 470: # 并 计算 达到 极 值 的 频率 
extreme_value_count += 1 # 极 值 的 频率 


print extreme_value count / 100000 # 0.062 


因为 p 值 大 于 5% 的 显著 性 ， 所 以 我 们 不 能 拒绝 原 假设 。 如 果 我 们 看 到 了 532 次 正面 朝 上 ， 
那么 相应 的 p 值 为 : 


two_sided_p_value(531.5, mu_0, sigma_ 0) # 0.0463 


它 小 于 5% 的 显著 性 ， 因 此 我 们 拒绝 原 假 设 。 它 正好 是 和 之 前 相同 的 检验 ， 只 是 计算 统计 
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量 的 方法 稍 有 不 同 。 
同样 要 我 们 有 2 














Upper_p_vatLue = normal_probability_above 
Lower_p_vatLue = normal_probability_below 


对 于 单 边 检验 ， 如 果 我 们 看 到 525 次 正面 朝 上 ， 那 么 可 以 计算 : 


Upper_p_value(524.5, mu_0, sigma 0)  # 0.061 




















这 意味 着 我 们 会 拒绝 原 假设 。 如 果 我 们 看 到 527 次 正面 朝 上 ， 相 应 计算 如 下 : 











upper_p_value(526.5, mu_0, sigma 0) #0.047 


根据 结果 ， 我 们 会 拒绝 原 假设 。 





在 调用 函数 normal_probability_above 计算 pbp 值 之 前 ， 需 要 确定 你 的 数据 大 
致 上 服从 正 态 分 布 。 数 据 科学 的 不 良 数据 记录 中 充斥 着 差 之 毫 厘 失 之 千里 的 
例子 ， 原因 在 于 “数据 是 正 态 分 布 的 "， 如 果 数 据 本 身 不 是 正 态 分 布 ， 那 结 
有 果 就 毫 无 意义 。 























对 正 态 分 布 的 检验 方法 有 好 几 种 ， 绘 图 是 不 错 的 首选 方案 。 














7.3 置信 区 间 


我 们 一 直 在 对 正面 朝 上 的 概率 p 进行 假设 检验 ， 这 是 未 知 的 “正面 朝 上 ”分 布 的 参 
数 。 对 假设 检验 ， 我 们 还 有 第 三 种 方法 : 在 参数 的 观测 值 附近 建 并 置信 区 间 (confidence 


interval ) 。 





例如 ， 我 们 可 以 通过 计算 每 次 抛掷 对 应 的 伯 努 利 随机 变量 的 均值 来 估计 不 均匀 硬币 的 概 
率 一 一 正面 朝 上 记 为 1， 背面 朝 上 记 为 0， 取 这 一 系列 伯 努 利 随机 变量 的 平均 值 。 如 果 我 
们 观测 的 1000 次 抛 找 中 有 525 次 正面 朝 上 ， 那 么 我 们 可 以 估计 出 p 等 于 0.525。 
































但 是 这 个 估计 的 可 信和 度 有 多 大 呢 ? 如 果 我 们 已 知 p 的 精确 值 ， 那 么 根据 中 心 极限 定理 〈 见 
6.7 市 )， 伯 努 利 随机 变量 的 均值 近似 服从 正 态 分 布 ， 其 中 均值 为 p， 标 准 为 : 





math.sqrt(p * (1 - p) / 1000) 


这 里 , p 是 未 知 的 ， 所 以 我 们 使 用 估 值 : 


p_hat = 525 / 1000 
mu = p_hat 
sigma = math.sqrt(p_hat * (1 - p_hat) / 1000) # 0.0158 
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这 种 计算 是 不 严格 的 ， 但 运用 广泛 。 借 助 正 态 近似 我 们 得 出 结论 : 以 下 区 间 包 含 真实 参数 
万 的 可 能 性 为 95% 





normal_two_sided_bounds(0.95, mu, sigma) # [0.4940, 0.5560] 








这 是 关于 区 间 的 解释 ， 不 是 关于 p 值 的 解释 。 你 需要 这 样 理解 .如 果 你 重复 
实验 很 多 次 ， 其 中 95% 的 “ 真 ”参数 (每 次 都 相同 ) 会 落 在 观测 到 的 置信 区 
间 (每 次 可 能 会 都 不 同 ) 中 。 











xl 





注意 ， 我 们 没有 得 出 不 均匀 硬币 的 结论 ， 因 为 0.5 落 入 了 我 们 的 置信 区 间 。 








如 果 我 们 观察 到 的 是 540 次 正面 朝 上 ， 那 么 相应 计算 为 : 











p_hat = 540 / 1000 

mu = p_hat 

sigma = math.sqrt(p_hat * (1 - p_hat) / 1000) # 0.0158 
normal_two_sided_bounds(0.95, mu, sigma) # [0.5091, 0.5709] 


在 这 种 情形 下 ,“ 均 匀 硬 币 ” 没 有 落 入 置信 区 间 。( 均匀 硬币 ”的 假设 没有 通过 检验 。 如 
果 假 设 是 真 的 ， 那 需要 在 95% 的 时 间 中 都 能 通过 。) 


7.4 P-hacking 


如 果 一 个 程序 仅 有 5% 的 时 间 错 误 地 拒绝 了 原 假设 ， 那 么 根据 定义 ，5% 的 时 间 会 错误 地 
拒绝 原 假设 : 
def run_experiment(): 


"""flip a fair coin 1000 times, True = heads, False = tails 
return [random.random() < 0.5 for _ in range(1000)] 


mm 


def reject fairness(experiment): 
"""using the 5% significance levels 
num_heads = len([flip for flip in experiment if flip]) 
return num_heads < 469 or num heads > 531 


mm 


random. seed(0) 

experiments = [run_experiment() for 

num_rejections = len([experiment 
for experiment in experiments 
if reject_fairness(experiment)]) 


in range(1000)] 


print num_rejections # 46 
这 意味 着 如 果 你 有 意 找 出 “显著 ”结果 ， 那 么 总 是 可 以 的 。 只 要 对 数据 的 假设 检验 次 数 足 
够 多 ， 就 总 有 某 些 会 表现 出 显著 性 。 移 除 右 边 的 那些 异常 值 ， 你 就 可 以 得 到 小 于 0.05 的 p 
值 。( 注 意 ， 这 与 5.2 节 讲 的 相关 性 有 些 类 似 。) 
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这 就 是 所 谓 的 P-hacking (http://www.nature.com/news/scientific-method-statistical-errors-1.14700)， 
它 某 种 程度 上 是 “基于 p 值 框架 的 推断 ”的 结果 。 批 评 这 种 方法 的 一 篇 绝 好 文章 是 “地 球 是 
圆 的 ” (http://ist-socrates.berkeley.edu/~maccoun/PP279_Cohen1.pdf)。 





























如 果 想 做 好 科学 工作 ， 就 要 在 审查 数据 之 前 确定 你 的 假设 ， 就 要 在 做 假设 之 前 整理 好 你 
的 数据 ， 并 且 要 牢记 , p 值 并 不 是 靠 直 觉得 出 的 。( 一 个 替代 方案 是 下 文 7.6 市 “ 贝 叶 斯 
推断 ”。) 


一 /一 局 -上 
7.5 案例 : 运行 A/B 测 试 
你 在 DataSciencester 的 主要 职责 之 一 是 经 验 值 优 化 ， 这 是 个 委婉 的 说 法 ， 其 实 就 是 设法 让 
人 点 击 广告 。 你 的 一 个 广告 商 针 对 数据 科学 家 开发 了 一 种 新 的 能 量 饮料 ， 广 告 部 门 的 副 总 
希望 你 帮助 他 在 广告 A (口味 好 ”) 和 广告 B (“营养 均衡 ") 之 间 进 行 选择 。 
作为 一 名 科学 家 ， 你 得 做 一 次 实验 ， 对 网 站 访问 者 随机 放送 不 同 的 广告 ， 并 记录 每 个 广告 
的 点 击 数 。 
如 果 1000 个 看 到 广告 A 的 人 中 有 990 个 人 点 击 广告 ,而 1000 个 看 到 广告 B 的 人 中 只 有 
10 个 点 击 ， 你 可 以 确认 A 是 更 棒 的 广告 。 但 倘若 区 别 并 不 如 此 分 明 ， 可 以 使 用 统计 推断 
进行 选择 。 
假设 有 个 人 看 到 广告 A， 其 中 尺 个 人 点 击 广告 。 每 次 广告 浏览 都 是 一 次 伯 努 利 试验 ， 
其 中 忆 是 点 击 广告 A 的 概率 。 然 后 (如果 入 足够 大 。 此 处 就 足够 大 ) 我 们 知道 ny 是 
近似 服从 正 态 分 布 的 随机 变量 ， 其 中 均值 为 p,， 标 准 差 为 o4 = V/ p, (1 一 p,)/ Na 。 同 样 
na/Ns 是 近似 服从 正 态 分 布 的 随机 变量 ， 均 值 为 pas， 标准 差 为 op = / ps (1 一 ps)/ Ng : 






































def estimated parameters(N, nN): 
p=n/N 
sigma = math.sqrt(p * (1 - p) / N) 
return p, sigma 


如 果 我 们 假设 这 两 个 正 态 分 布 互相 独立 (这 个 假设 是 合理 的 ， 因 为 每 个 伯 努 利 试验 也 是 独 
立 的 )， 那 么 它们 的 差 也 是 正 态 分 布 的， 其 中 均值 为 ps ps， 标准 差 为 / o% 二 a3。 





这 某 种 程度 上 有 些 欺 骗 性 。 只 有 在 标准 差 已 知 的 条 件 下 数学 推理 才 正 确 。 我 
们 从 数据 中 估计 参数 ， 这 意味 着 我 们 实际 中 应 该 用 1 分布 。 但 如 果 数 据 集 足 
够 大 ， 正 态 分 布 和 1 分 布 之 间 的 差别 可 以 忽略 不 计 。 








这 意味 着 我 们 可 以 检验 py 和 ps 相等 ( 即 psy-ps 等 于 零 ) 这 个 原 假设 ， 具 体 方式 如 下 : 
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def a_b test statistic(N A, n_ A, N_B, n_B): 
p_A, sigma A = estimated parameters(N A, n_A) 
p_B, sigma B = estimated parameters(N B, n_B) 
return (p_B - p A) / math.sqrt(sigma A ** 2 + sigma B ** 2) 


这 应 该 近似 一 个 标准 正 态 分 布 。 


比如 ， 如 果 “ 口 味 好 ”的 广告 从 1000 次 浏览 中 获得 200 次 点 击 量 ， 而 “营养 均衡 ”广告 
则 从 1000 次 浏览 中 获得 180 次 点 击 量 ， 则 统计 量 等 于 : 





z = ab test statisttc(1000，200，1000，180) # -1.14 


如 果 两 个 均值 实际 上 相等 ， 那 么 看 到 如 此 大 的 差异 的 概率 为 : 


two_sided_p_vaLue(z) # 0.254 

















这 计算 出 的 数值 很 大 ， 以 至 于 你 不 可 以 得 出 有 差距 的 结论 。 另 一 方面 ， 如 果 “ 和 营养 均衡 ” 
仅仅 获得 150 次 点 击 量 ， 则 : 











z = ab test statistic(1000, 200, 1000, 150) # -2.94 
two_sided_p_value(z) # 0.003 





这 意味 着 如 果 广 告 的 效果 相同 ， 那 么 你 看 到 有 明显 差异 的 概率 只 有 0.003。 


7.6 贝 叶 斯 推断 


我 们 所 看 到 的 处 理 方式 都 包含 对 检验 所 做 的 与 概率 有 关 的 陈述 :“ 如 果 原 假设 正确 ， 那 么 
你 观测 到 极端 统计 量 的 概率 仅 有 3%。” 
































推断 的 一 个 禁 代 方法 是 将 未 知 参数 视 为 随机 变量 。 分 析 师 (也 就 是 你 ) 从 参数 的 先 验 
分 布 (prior distribution) 出 发 ， 再 利用 观测 数据 和 贝 叶 斯 定理 计算 出 更 新 后 的 后 验 分 布 
(posterior distribution) 。 不 再 对 检验 本 身 给 出 概率 判断 ， 而 是 对 参数 本 身 给 出 概率 判断 。 


比如 ， 如 果 未 知 参 数 是 概率 (就 像 气 硬币 的 例子 )， 我 们 使 用 Beta 分 布 (Beta distribution ) 
作为 先 验 分 布 ，Beta 分 布 仅 对 0 和 1 赋值 : 
def B(alpha, beta): 


"""a normalizing constant so that the total probability ts 1""" 
return math.gamma(alpha) * math.gamma(beta) / math.gamma(alpha + beta) 




















def beta_pdf(x, alpha, beta): 
if x<0orx>1: # [0，1] 之 外 没有 权重 
return 0 
return x ** (alpha - 1) * (1 - x) ** (beta - 1) / B(alpha, beta) 


一 般 来 说 ， 以 上 分 布 的 权重 中 心 为 : 


alpha / (alpha + beta) 
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alpha 和 beta 越 大 ， 分 布 就 越 “ 紧 密 ”。 


例如 ， 如 果 atpha 和 beta 都 是 1， 那 么 刚好 是 均匀 分 布 (以 0.5 为 中 心 ， 非 常 分 散 )。 如 果 
alpha 比 beta 大 很 多 ， 那 么 大 多 数 权 重 接近 1。 如 果 alpha 比 beta 小 很 多 ， 那 么 大 多 数 权 


重 接近 零 。 图 7-1 展示 了 几 种 不 同 的 Beta 分 布 。 





让 我 们 先 假设 一 个 先 验 分 布 P。 如 果 对 硬币 是 否 均匀 不 预 设立 场 ， 那 么 将 alpha 与 beta 都 
设 定 为 1。 或 者 如 果 我 们 坚信 硬币 有 55% 的 可 能 正面 朝 上 ， 就 选择 让 alpha 等 于 55，beta 


等 于 45。 


然后 我 们 多 次 掷 起 硬币 ， 结 果 有 疡 次 正面 朝 上 ， 有 + 次 背面 朝 上 。 根 据 贝 叶 斯 定理 















































(和 


一 些 太 过 元 营 的 数学 ， 此 处 不 费 述 ), p 的 先 验 分 布 仍然 是 Beta 分 布 ， 但 参数 分 别 为 


alpha 十 h 和 beta 二 tt。 


后 验 分 布 也 是 Beta 分 布 ， 这 并 非 偶然 。 二 项 分 布 给 出 了 正面 朝 上 的 数字 ， 
Beta 是 二 项 分 布 的 共 斩 先 验 分 布 (conjugate prior，http://www.johndcook.com/ 
blog/conjugate_prior_ diagram/)。 这 意味 着 ， 无 论 你 何 时 使 用 从 相关 的 二 项 分 
布 中 得 到 的 观测 值 更 新 Beta 先 验 分 布 ， 你 还 是 会 得 到 一 个 Beta 后 验 分 布 。 

















-一 Beta(1, 1) 
Beta(10, 10) 
Beta(4, 16) 

-—- Beta(16, 4) 








0.0 0.2 0.4 I 0.8- 1.0 








7-1，Beta 分 布 举例 
假设 你 搓 硬 币 10 次 并 且 观 测 到 3 次 正面 朝 上 。 


如 果 你 从 均匀 分 布 的 先 验 开 始 〈《 有 时 候 不 会 采取 硬币 均匀 的 立场 )， 那 么 你 的 后 验 分 布 为 
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Beta(4, 8)， 中 心 为 0.33。 如 果 你 认为 所 有 的 可 能 性 都 相等 ， 那 么 你 最 好 的 猜测 就 会 非常 接 
近 观 测 到 的 概率 。 


如 果 你 从 Beta(20, 20) 开始 (表明 硬币 大 致 上 是 均匀 的 )， 那 么 你 的 后 验 分 布 为 Beta(23， 
27)， 中 心 为 0.46， 这 表明 可 能 硬币 稍稍 倾向 于 背面 朝 上 。 


如 果 你 从 Beta(30, 10) 开始 (表明 硬币 是 不 均匀 的 ， 即 有 75% 的 可 能 会 正面 朝 上 )， 那 么 你 
的 后 验 分 布 为 Beta(33, 17)， 中 心 为 0.66。 这 种 情况 下 ， 你 仍然 相信 正面 朝 上 的 概率 会 大 一 
些 ， 只 是 没有 一 开始 那么 坚定 了 。 这 几 个 不 同 的 后 验 分 布 如 图 7-2 所 示 。 














Beta(4, 8) 
Beta(23, 27) 
Beta(33, 17) 





0.0 0.2 0.4 0.6 5 1.0 











7-2: 从 不 同 先 验 分 布 得 到 的 后 验 分 布 


如 果 你 多 次 掷 硬币 ， 无 论 你 最 初 选择 了 什么 样 的 先 验 分 布 ， 先 验 分 布 对 后 验 分 布 的 影响 会 
越 来 越 小 ， 直 到 最 后 得 到 (几乎 ) 相同 的 后 验 分 布 。 


比如 ， 无 论 你 最 初 对 掷 硬 币 的 结果 有 怎样 的 倾向 猜想 ， 当 看 到 2000 次 掷 硬币 的 结果 中 有 
1000 次 正面 朝 上 时 ， 你 都 会 很 难 维持 原先 的 看 法 除非 你 极端 地 选择 了 Beta(1000000, 1) 
这 样 的 先 验 分 布 )。 








有 趣 的 是 ， 这 允许 我 们 对 假设 “基于 先 验 分 布 和 已 观测 数据 ， 正 面 朝 上 的 概率 介 于 49% 一 
51% 的 可 能 性 仅 有 5%” 做 出 概率 判断 。 这 在 哲学 上 不 同 于 论断 “如 果 硬 币 是 均匀 的 ， 那 
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么 只 有 5% 的 机 会 能 观测 到 极端 数据 ”。 








用 贝 叶 斯 推断 进行 假设 检验 是 饱 受 争 议 的 一 一 部 分 源 于 它 的 数学 原理 非常 复杂 ， 部 分 源 于 
选择 先 验 分 布 的 主观 性 。 本 书 中 我 们 不 会 挖掘 得 太 深 ， 但 稍 作 了 解 还 是 有 益 的 。 


7.7 ”延伸 学 习 

。 我 们 仅仅 讲解 了 统计 推断 的 一 点 皮毛 知识 。 第 5 章 末 推荐 的 相关 书籍 有 大 量 更 加 深入 的 
细 市 知识 。 

。 在 线 公开 课 提 供 了 涵盖 许多 相关 主题 的 数据 分 析 与 统计 推断 课程 (https://www.coursera. 


org/course/statistics Js 
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压 焰 自己 血统 者 ， 实 际 上 和 专 狼 的 是 他 们 对 别人 的 亏 大 。 


一 一 塞 内 加 





从 事 数据 科学 工作 时 ， 常 常会 面临 这 样 的 需要 : 为 某 种 特定 的 情形 寻找 最 佳 模型 。 最 佳 ” 
常常 会 被 解读 为 某 种 类 似 于 “最 小 化 模型 残 差 ” 或 者 “最 大 化 数据 的 可 能 性 ”。 换 名 话说 ， 
它 代 表 了 优化 某 种 问题 的 解决 方案 。 




















这 意味 着 我 们 需要 解决 一 连 串 的 最 优化 问题 。 尤 其 是 ， 我 们 需要 从 零 开 始 解 决 问题 。 我 们 
采用 的 方法 是 一 种 叫 作 梯度 下 降 (gradient descent) 的 技术 ， 适 合 从 零 开 始 逐 步 解决 问题 。 








也 许 你 无 法 从 中 体味 出 兴奋 感 ， 但 它 会 在 本 书 中 教 我 们 做 很 多 令 人 兴奋 的 事情 ， 所 以 ， 务 


必 跟 随 我 。 


8.1 梯度 下 降 的 思想 


假设 我 们 拥有 某 个 国 数 f， 这 个 国 数 输入 一 个 实数 向 量 ， 输 出 一 个 实数 。 一 个 简单 的 例子 
如 下 : 





def sum_of_squares(v): 
"""computes the sum of squared elements in v""" 
return sum(v_i xx 2 for v_i in v) 


我 们 常常 需要 最 大 化 (或 最 小 化 ) 这 个 函数 。 这 意味 着 我 们 需要 找 出 能 计算 出 最 大 (或 最 
小 ) 可 能 值 的 输入 v。 
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对 我 们 的 函数 来 说 ， 梯 度 〈 在 微 积 分 里 ， 这 表示 偏 导数 向 量 ) 给 出 了 输入 值 的 方向 ， 在 这 
个 方向 上 ， 函 数 增长 得 最 快 。( 如 果 记 不 起 微 积 分 ， 用 我 提 到 的 关键 词 上 网 查 查 。) 


相应 地 ， 最 大 化 函数 的 算法 首先 从 一 个 随机 初始 点 开始 ， 计 算 梯度 ， 在 梯度 方向 (这 是 使 
函数 增长 最 快 的 一 个 方向 ) 上 跨越 一 小 步 ， 再 从 一 个 新 的 初始 点 开始 重复 这 个 过 程 。 同 
样 ， 你 也 可 以 在 相反 方向 上 逐步 最 小 化 函数 ， 如 图 8-1 所 示 。 





























图 8-1: 用 梯度 下 降 法 计算 最 小 点 


如 果 一 个 函数 有 一 个 全 局 最 小 点 ， 那 么 这 个 方法 很 可 能 会 找到 它 。 如 果 这 个 
函数 有 多 个 (局部) 最 小 点 ， 那 么 这 种 方法 可 能 找 不 到 这 个 点 ， 但 你 可 以 通 
过 多 尝试 一 些 初 始点 来 重复 运行 这 个 方法 。 如 果 一 个 函数 没有 最 小 点 ， 也 许 
计算 会 陷入 死 循环 。 


8.2 ”估算 梯度 


如 果 f 是 单 变量 函数 ， 那 么 它 在 x 点 的 导数 衡量 了 当 x 发 生变 化 时 ，f(x) 变化 了 多 少 。 导 
数 通过 差 商 的 极限 来 定义 : 





def difference quotient(f, x, h): 
return (f(x + h) - f(x)) / h 











其 中 h 趋 近 于 0。 


(许多 微 积 分 初学 者 常常 受 困 于 极限 的 数学 定义 。 这 里 我 们 不 妨 说 ， 你 认为 它 是 什么 ， 它 
就 是 什么 。) 








(x, f(x)) 






(x+h, f(x+h)) 











图 8-2: 通过 差 商 来 求 近似 导数 





导数 就 是 在 点 (x, 了 (x)) 的 切线 的 斜率 ， 而 差 商 就 是 通过 点 (x, 了 (x)) 和 点 (x+h, 了 (x+h)) 的 逢 
线 的 斜率 。 当 及 越 来 越 小 ， 制 线 与 切线 就 越 来 越 接 近 ( 见 图 8-2)。 


eS 


很 多 函数 可 以 精确 地 计算 导数 ， 比 如 平方 函数 square: 


def square(x): 
return X * x 


它 的 导数 为 : 


def derivative(x): 
return 2* x 


你 可 以 通过 计算 来 确认 一 一 如 果 你 想 的 话 一 一 先 显 式 地 计算 差 商 ， 再 取 极 限 。 
如 果 算 不 出 梯度 〈 或 不 想 算 ) 呢 ? Python 中 无 法 直接 运算 极限 ， 但 可 以 通过 计算 一 个 很 小 
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的 变动 e 的 差 商 来 估算 微分 。 图 8-3 给 出 了 这 个 估算 的 结果 : 





derivative estimate = partial(difference_quotient, square, h=0.00001) 








# 绘 出 导入 matplotlib.pyplot 作 为 ptt 的 基本 相同 的 形态 

x = range(-10,10) 

plt.title(" 精 确 的 导数 值 与 估计 值 ") 

plt.plot(x, map(derivative, x), 'rx', label='Actual') # 用 x 表示 
plt.plot(x, map(derivative estimate, x), 'b+', label='Estimate') # 用 + 表示 
plt. legend(loc=9) 

plt.show() 





精确 的 导数 值 与 估计 值 


20 











图 8-3: 差 商 近 似 值 的 拟 合 度 


当 f 是 一 个 多 变量 函数 时 ， 它 有 多 个 偏 导 数 ， 每 个 偏 导数 表示 仅 有 一 个 输入 变量 发 生 微小 
变化 时 函数 f 的 变化 。 




















我 们 把 导数 看 成 是 其 第 i 个 变量 的 函数 ， 其 他 变量 保持 不 变 ， 以 此 来 计算 它 第 i 个 偏 导 数 : 








def partial_difference quotient(f, v, i, h): 
"""compute the ith partial difference quotient of f at v""” 
w= [v_j + (h if j == i else 0)  # 只 对 v 的 第 i 个 元 素 增 加 h 
for j, v_j in enumerate(v)] 





return (f(w) - f(v)) / h 











再 以 同样 的 方法 估算 它 的 梯度 函数 : 





def estimate gradient(f, v, h=0.00001): 
return [partial_difference quotient(f, v, i, h) 
for i, _ in enumerate(v)] 


“ 差 商 估算 法 ”的 主要 缺点 是 计算 代价 很 大 。 如 果 v 长 度 为 "， 那 么 
estimate_gradient 为 了 计算 f 需 要 2n 个 不 同 的 输入 变量 。 如 果 你 需要 反复 
计算 梯度 ， 那 需要 做 很 多 额外 的 工作 。 





8.3 使 用 梯度 


很 容易 看 出 ， 当 输入 v 是 零 向 量 时 ， 函 数 sum_of_squares 取 值 最 小 。 但 如 果 不 知 道 输 入 是 
什么 ， 可 以 用 梯度 方法 从 所 有 的 三 维 向 量 中 找到 最 小 值 。 我 们 先 找 出 随机 初始 点 ， 并 在 梯 
度 的 反方 向 以 小 步 逐步 前 进 ， 直 到 梯度 变 得 非常 非常 小 : 

















def step(v, direction, step_size): 
"""move step_size in the direction from v""”" 
return [v_i + step_size * direction i 
for v_i, direction i in zip(v, direction)] 


def sum of_squares_gradient(v): 
return [2 * vi forv i inv] 


# 选取 一 个 随机 初始 值 
v = [random.randint(-10,10) for i. in range(3)] 


tolerance = 0.0000001 


while True: 
gradient = sum_of_squares_gradient(v) “ # 计算 v 的 梯度 
next_v = step(v, gradient, -0.01) # 取 负 的 梯度 步 长 
if distance(next_v, v) < tolerance: # 如 果 收 敛 了 就 停止 
break 
Vo inexty # 如 果 没 汇合 就 继续 


如 果 运 行 以 上 程序 ， 你 会 发 现 ， 它 总 是 止 于 一 个 非常 接近 [9,9,0] 的 v 值 。tolerance 值 设 
定 得 越 小 ，v 值 就 越 接 近 [09,0,0]。 


8.4 选择 正确 步 长 

尽管 向 梯度 的 反 向 移动 的 逻辑 已 经 清楚 了 ， 但 移动 多 少 还 不 明了 。 事 实 上 ， 选 择 合 适 的 步 
长 更 像 艺术 而 非 科 学 。 主 流 的 选择 方法 有 : 

。 使 用 固定 步 长 

。 随时 间 增 长 逐步 减 小 步 长 
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。 在 每 一 步 中 通过 最 小 化 目标 函数 的 值 来 选择 合适 的 步 长 





一 种 方法 看 上 去 不 错 ， 但 它 的 计算 代价 也 最 大 。 我 们 可 以 尝试 一 系列 步 长 ， 并 选 出 使 





有， 最 小 的 那个 步 长 来 求 其 近似 值 : 











step_sizes = [100，10，1，0.1，0.01，0.001，0.0001，0.00001] 





Sl me 所 以 ， 我 们 需要 创建 一 个 对 无 效 输入 值 返回 无 限 值 


( 即 这 个 值 永远 不 会 成 为 任何 函数 的 最 小 值 ) 的 “安全 应 用 ”函数 : 


def safe(f): 
"""return a new function that's the same as f, 
except that it outputs infinity whenever f produces an error 
def safe _f(*args, **kwargs): 


mm 


try: 
return f(*args, **kwargs) 
except: 
return float('inf') # 意思 是 Python 中 的 “无 限 值 ” 





return Safe f 


8.5 综合 


通常 而 言 ， 我 们 有 一 些 target_fn 函数 ， 需 要 对 其 进行 最 小 化 ， 也 有 梯度 函数 gradient_ 
fn。 比 如 ， 函 数 target_fn 可 能 代表 模型 的 残 差 ， 它 是 参数 的 函数 。 我 们 可 


使 残 差 尽 可 能 小 的 参数 。 


此 外 ,假设 我 们 (以 某 种 方式 ) 为 参数 theta_0 设 定 了 某 个 初始 值 ， 那 么 可 以 如 下 使 用 梯 


度 下 降 法 : 


def minimize_batch(target_ fn, gradient_fn, theta_ 0, tolerance=0.000001): 
"""Uuse gradient descent to find theta that minimizes target function 


step_sizes = [100, 10, 1, 0.1, 0.01, 0.001, 0.0001, 0.00001] 














theta = theta 0 # 设 定 theta 为 初始 值 
target fn = safe(target_fn) # target_fn 的 安全 版 
value = target fn(theta) # 我 们 试图 最 小 化 的 值 
while True: 


gradient = gradient_fn(theta) 
next_thetas = [step(theta, gradient, -step_size) 
for step_size in step_sizes] 


# 选择 一 个 使 残 差 函 数 最 小 的 值 
next_theta = min(next_ thetas, key=target_fn) 
next_value = target fn(next_theta) 


# 当 收敛 "时 停止 


if abs(vaLue - next_vaLue) < tolerance: 





要 找到 能 
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return theta 
else: 
theta, value = next_theta, next_value 

















我 们 称 它 为 minimize_batch， 因 为 在 每 一 步 梯度 计算 中 ， 它 都 会 搜索 整个 数据 集 (因为 
target_fn 代表 整个 数据 集 的 残 差 )。 在 下 一 部 分 中 ， 我 们 会 探讨 男 一 种 方法 ,一 次 仅 考 虑 
一 个 数据 点 。 


有 时候， 我 们 需要 最 大 化 某 个 函数 ， 这 只 需要 最 小 化 这 个 函数 的 负 值 (相应 的 梯度 函数 也 
需 取 负 ) : 














def negate(f): 
"""return a function that for any input x returns -f(x)""" 
return lambda *args, **kwargs: -f(*args, **kwargs) 


def negate_ all(f): 
"""the same when f returns a list of numbers""”" 
return Lambda *args, **kwargs: [-y for y in f(*args, **kwargs)] 


def maximize_ batch(target_fn, gradient_fn, theta 0, tolerance=0.000001): 
return minimize_batch(negate(target_fn), 
negate_all(gradient_fn), 
theta_0， 
tolerance) 


8.6 ”随机 梯度 下 降 法 

正如 之 前 提 到 的 ， 我 们 常常 用 梯度 下 降 的 方法 ， 通 过 最 小 化 某 种 形式 的 残 差 来 选择 模型 参 
数 。 如 果 使 用 之 前 的 批 处 理 方法 ， 每 个 梯度 计算 步 都 需要 我 们 预测 并 计算 整个 数据 集 的 梯 
度 ， 这 使 每 一 步 都 会 耗费 很 长 时 间 。 

现在 ， 这 些 残 差 函 数 常常 具有 可 加 性 (additive)， 意 味 着 整个 数据 集 上 的 预测 残 差 恰 好 是 
每 个 数据 点 的 预测 残 差 之 和 。 

在 这 种 情形 下 ， 我 们 转 而 使 用 一 种 称 为 随机 梯度 下 降 (stochastic gradient descent) 的 技 
术 ， 它 每 次 仅 计算 一 个 点 的 梯度 (并 向 前 跨 一 步 )。 这 个 计算 会 反复 循环 ， 直 到 达到 一 个 
停止 点 。 


在 每 个 循环 中 ， 我 们 都 会 在 整个 数据 集 上 按照 一 个 随机 序列 迭代: 











def in_random_order(data) : 
"""generator that returns the elements of data in random order""" 
indexes = [i for i,，_ in enumerate(data)] # 生成 索引 列表 
random. shuffle(indexes) # 随机 打 乱 数据 
for i in indexes: # 返回 序列 中 的 数据 
yield data[i] 








我 们 对 每 个 数据 点 都 会 进行 一 步 梯度 计算 。 这 种 方法 留 有 这 样 一 种 可 能 性 ， 即 也 许 会 在 最 
小 值 附近 一 直 循 环 下 去 ， 所 以 ， 每 当 停止 获得 改进 ， 我 们 都 会 减 小 步 长 并 最 终 退 出 





def minimize_stochastic(target_fn, gradient_fn, x, y, theta_ 0, alpha_0=0.01): 


data = zip(x, y) 

theta = theta 0 # 初始 值 猜测 

alpha = alpha_0 # 初始 步 长 
min_theta, min_value = None, float("inf")  # 记 今 为 目的 最 小 值 
iterations with no_improvement = 0 


# 如 果 循 环 超 过 106 次 仍 无 改进 ,停止 
while iterations with_no_improvement < 100: 
vaLue = sum( target fn(x_i, y i, theta) for x i, y i in data ) 


if vaLue < min_value: 
# 如 果 找 到 新 的 最 小 值 , 记 住 它 
# 并 返回 到 最 初 的 步 长 
min_theta，min_vaLue = theta, value 
iterations_with_no_improvement = 0 
alpha = alpha_0 

else: 
# 尝试 缩小 步 长 ,否则 没有 改进 
iterations with no_improvement += 1 
alpha *= 0.9 


# 在 每 个 数据 点 上 向 梯度 方向 前 进一步 
for x_i, y i in in_random order(data): 
gradient i = gradient fn(x_i, y_i, theta) 
theta = vector_subtract(theta, scalar_multiply(alpha, gradient i)) 











return min_theta 








随机 化 通常 比 批 处 理化 快 很 多 。 当 然 ， 我 们 也 希望 获得 最 大 化 的 结 采 : 











def maximize_stochastic(target_fn, gradient_fn, x, y, theta_ 0, alpha_0=0.01): 
return minimize_stochastic(negate(target_fn), 
negate_all(gradient_fn), 
x, y, theta_0, alpha_0) 


8.7 ”延伸 学 习 


。 继续 往 下 读 ， 我 们 将 用 梯度 下 降 法 解决 本 书 剩余 部 分 提 到 的 很 多 问题 。 

。 如 果 继 续 推 荐 你 阅读 教材 ,你 该 感到 厌倦 了 。 幸 好 ,这 次 推荐 你 读 的 是 4ctive Calculus (http:// 
scholarworks.gvsu.edu/books/10/) ， 它 似乎 比 我 读 过 的 任何 微 积分 教材 都 要 友好 一 些 

。 scikit-learn 有 一 个 随机 梯度 下 降 模 块 (http://scikit-learn.org/stable/modules/sgd.html)， 它 
在 某 些 方面 讲 得 比较 先 统 ， 而 在 其 他 一 些 方面 讲 得 很 详细 。 事 实 上 ， 在 真实 世界 的 大 多 
数 场景 中 ， 你 都 会 用 到 库 ， 库 中 的 优化 技术 已 经 充分 考虑 到 背后 的 原理 了 ， 所 以 你 不 必 
为 此 操心 〈 绝 不 会 某 个 时 候 就 不 能 正常 工作 了 ， 训 无 疑问 ， 这 不 可 能 )。 
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获取 数据 





写作 本 书 我 用 了 三 个 月 的 时 间 ; 构思 只 用 了 三 分 钟 ; 而 收集 书 中 的 数据 ， 则 用 了 我 的 一 生 。 

一 一 BE. 斯 科 特 : 菲 疹 术 拉 德 
为 了 成 为 一 名 数据 科学 家 ， 你 需要 数据 。 事 实 上 ， 作 为 数据 科学 家 ， 你 会 花 超大 一 部 分 时 
间 来 获取 、 清 理 和 转换 数据 。 必 要 时 ， 你 总 可 以 自己 输入 数据 (或 者 可 以 让 你 的 助手 来 


做 )， 但 通常 这 样 做 比较 浪费 时 间 。 本 章 我 们 来 看 看 利用 Python 获取 数据 并 得 到 正确 格式 
的 不 同方 法 。 








9.1 stdin 和 stdout 


如 果 在 命令 行 运行 Python 脚本 ， 你 可 以 用 sys.stdin 和 sys.stdout 以 管道 (pipe) 方式 传 
递 数 据 。 例 如 ， 以 下 脚本 按 行 读 入 文本 ， 然 后 划分 出 和 一 个 正则 表达 式 匹 配 的 行 : 

















# egrep.py 
import sys, re 





# sys.argv 是 命令 行 参 数 的 列表 
# sys.argv[0] 是 程序 自己 的 名 字 

# sys.argv[1] 会 是 在 命令 行 上 指定 的 正则 表达 式 
regex = sys.argv[1] 


el 





# 对 传递 到 这 个 脚本 中 的 每 一 个 行 
for line in sys.stdin: 
# 如 果 它 匹配 正则 表达 式 , 则 把 它 写 入 stdout 
if re.search(regex, line): 
sys.stdout.write(line) 
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然后 对 收 到 的 行 计数 并 输出 计数 结果 : 





# line count.py 
import sys 


count = 0 
for line in sys.stdin: 
Count += 1 





# 输出 去 向 sys.stdout 
print count 


你 可 以 用 这 种 方法 来 计数 文件 中 有 多 少 行 包含 数字 。 在 Windows 中 ， 你 可 以 用 : 
type SomeFile.txt | python egrep.py "[0-9]" | python Line_count.py 
而 在 Unix 系统 中 ， 你 可 以 用 : 
cat SomeFile.txt | python egrep.py "[6-9]" | python line_count.py 
“1” 运算 符 是 个 管道 字符 ， 它 的 意思 是 “使 用 左边 命令 的 输出 作为 右边 命令 的 输入 ”。 
2 人 


如 果 你 使 用 的 是 Windows， 你 可 以 在 这 行 命令 中 去 掉 所 包含 的 python 部 分 





type SomeFile.txt | egrep.py "[0-9]" | line count.py 





如 有 果 你 用 Unix 系统 ， 这 么 做 可 能 会 需要 多 做 一 些 额 外 工作 。 














类 似 地 ， 下 面 的 这 个 脚本 计算 了 单词 的 数量 并 给 出 了 最 常用 的 单词 : 





# most_common_words.py 
import sys 
from collections import Counter 


# 传递 单词 的 个 数 作 为 第 一 个 参数 
try: 
num_words = int(sys.argv[1]) 
except: 
print "usage: most_common_words.py Num_words" 


sys.exit(1) # 非 零 的 exit 代 码 表明 有 错误 








counter = Counter(word.Lower() # 小 写 的 单词 
for Line in sys.stdin 
for word in line.strip().split() # 用 空格 划分 
if word) # 跳 过 空 的 'words' 


for word, count in counter .most_common(num_words) : 
sys.stdout.write(str(count)) 
sys.stdout.write("\t") 
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sys.stdout.write(word) 
sys.stdout.write("\n") 


之 后 你 可 以 对 圣经 文本 使 用 这 个 脚本 : 


C:\DataScience>type the_bible.txt | python most_common words.py 10 


64193 the 
51380 and 
34753 of 
13643 to 
12799 that 
12560 in 
10263 he 
9840 shall 
8987 unto 
8836 for 


如 果 你 是 个 Unix 编程 老手 ， 你 可 能 会 很 熟悉 系统 里 许多 内 置 的 命令 行 工具 
(比如 egrep)， 但 你 自己 从 零 开始 创建 这 些 工 具 或 许 更 好 一 些 。 毕 竞 ， 用 到 


的 时 候 刚 好 知道 ， 总 是 好 的 。 





9.2 读 取 文 件 


可 以 显 式 地 用 代码 来 读 写 文件 。 用 Python 处 理 文件 非常 简便 。 


9.2.1 人 ad 
处 理 文本 文件 的 第 一 步 是 通过 open 命令 来 获取 一 个 文件 对 象 : 








这 意味 着 只 读 


ee = open('reading file.txt', 'r') 











'w， 是 写 会 破坏 已 存在 的 文件 ! 


file for_writing = open('writing file.txt', 'w') 





'a' 是 添加 一 一 加 入 到 文件 的 末尾 
RE = open('appending file.txt', 'a') 


0 


# 完成 以 后 别 忘 了 关闭 文件 


file for_writing.close() 


因为 非常 容易 忘记 关闭 文件 ， 所 以 你 应 该 在 with 程序 块 里 操作 文件 ， 这 样 在 结尾 处 文件 会 
被 自动 关闭 : 








with open(filename,'r') as f: 
data = function_that_gets_data_from(f) 





# 此 时 ,f 已 经 关闭 了 , 别 再 试图 使 用 它 





96 | 第 9 章 


process(data) 
如 果 需 要 读 取 一 个 完整 的 文本 文件 ， 可 以 使 用 for 语句 对 文件 的 行进 行 迭 代 : 
starts with_hash = 0 
with open('input.txt','r') as f: 
for Line in file: # 查找 文件 中 的 每 一 行 


if re.match("^#",line): # 用 正则 表达 式 判 断 它 是 否 以 '#' 开 头 
starts_with_hash += 1 # 如 果 是 ,计数 加 1 


按 这 种 方法 得 到 的 每 一 行 会 用 换行 符 来 结尾 ， 所 以 在 对 读 入 的 行 操作 之 前 会 经 常 需要 用 
strip() 来 进行 处 理 。 








例如 ， 假 设 你 有 一 个 写 满 电子 邮件 地 址 的 文件 ， 每 个 地 址 一 行 ， 你 想 利用 这 个 文件 生成 
域名 的 直方 图 。 正 确 地 提取 域名 的 规则 有 些微 妙 〈 如 公共 后 绥 列 表 ，https:Wpublicsuffix. 
org/)， 但 一 个 好 的 近似 方案 是 只 取出 电子 邮件 地 址 中 @ 后 面 的 部 分 。( 对 于 像 joel@mail. 
datasciencester.com 这 样 的 邮件 地 址 ， 会 给 出 错误 的 答案 。) 








def get _ domain(email_address): 
"""split on '@' and return the last piece""”" 
return email_address.lower().split("@")[-1] 


with open('email_addresses.txt', 'r') as f: 
domain_counts = Counter(get_ domain(line.strip()) 
for line in f 
if "@" in line) 


9.2.2 ”限制 的 文件 

我 们 刚刚 处 理 的 假想 电子 邮件 地 址 文件 每 行 只 有 一 个 地 址 。 更 常见 的 情况 是 你 会 处 理 每 一 
行 包含 许多 数据 的 文件 。 这 种 文件 通常 是 用 过 号 分 割 或 tab 分 割 的 ， 每 一 行 有 许多 字段 ， 
用 逗号 (或 tab) 来 表示 一 个 字段 的 结束 和 另 一 个 字段 的 开始 。 


这 开始 变 得 复杂 了 ， 各 字段 中 带 有 逗号 、tab 和 换行 符 (这 是 你 不 可 避免 地 要 处 理 的 )。 
因为 这 个 原因 ， 几 乎 总 是 会 犯 的 一 个 错误 是 你 自己 尝试 去 解析 它们 。 相 反 ， 你 应 该 使 用 
Python 的 csv 模块 (或 者 pandas 库 )。 出 于 微软 方面 (你 可 以 对 其 大 加 责备 ) 的 技术 原因 ， 
你 应 该 总 是 通过 把 b 包括 在 r 或 w 之 后 来 用 二 进 制 模式 处 理 csv 文件 ( 见 Stack Overflow， 
http://stackoverflow.com/questions/4249185/using-python-to-append-csv-files)。 






































如 果 文 件 没有 头 部 (意味 着 你 可 能 想 把 每 一 行 作为 一 个 列表 ， 这 带 来 的 麻烦 是 你 需要 知道 
每 一 列 是 什么 )， 你 可 以 使 用 csv.reader 对 行进 行 迭 代 ， 每 一 行 都 会 被 处 理 成 恰当 划分 的 
列表 。 








例如 ， 如 果 有 这 样 一 个 用 tab 划分 的 股票 价格 文件 : 
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6/20/2014 AAPL 90.91 
6/20/2014 MSFT 41.68 
6/20/2014 FB 64.5 
6/19/2014 AAPL 91.86 
6/19/2014 MSFT 41.51 
6/19/2014 FB 64.34 


我 们 可 以 用 下 面 的 程序 块 来 处 理 : 








import csv 


with open('tab_delimited stock prices.txt', 'rb') as ff: 
reader = csv.reader(f, delimiter='\t') 
for row in reader: 
date = row[0] 
symbol = row[1] 
closing_price = float(row[2]) 
process(date, symbol, closing_ price) 


如 果 文 件 存 在 头 部 : 


date:symbol:closing_price 
6/20/2014:AAPL:90.91 
6/20/2014:MSFT:41.68 
6/20/2014:FB:64.5 


你 既 可 以 跳 过 头 部 的 行 (利用 对 read.next() 的 初始 调用 ) 也 可 以 利用 csv.DictReader 把 
每 一 行 读 成 字典 (把 头 部 作为 关键 字 ) : 


with open('colon delimited_ stock prices.txt', 'rb') as f: 
reader = csv.DictReader(f, delimiter=':') 
for row in reader: 
date = row["date"] 
symbol = row["symbol"] 
closing_price = float(row["closing_price"]) 
process(date, symbol, closing_price) 


即使 你 的 文件 缺少 头 部 ， 你 仍 可 以 通过 把 关键 字 作 为 文件 名 参数 传输 来 使 用 DictReader。 
同样 ， 你 可 以 用 csv.writer 来 写 限制 的 文件 : 





today_prices = { 'AAPL' : 90.91, 'MSFT' : 41.68, 'FB' : 64.5 } 


with open('comma_delimited_ stock prices.txt','wb') as f: 
writer = csv.writer(f, delimiter=',') 
for stock, price in today_prices.items(): 
writer.writerow([stock, price]) 





如 果 行 中 的 各 字段 本 身 包含 去 号 ，csv.writer 可 以 正确 处 理 。 但 你 自己 手动 写成 的 则 很 可 
能 不 会 正确 处 理 。 比 如 ， 如 果 你 尝试 这 样 做 : 





results = [["test1", "success", "Monday"], 





["test2", "success, kind of", "Tuesday"], 
["test3", "failure, kind of", "Wednesday"], 
["test4", "failure, utter", "Thursday"]] 


# 不 要 这 么 做 ! 
with open('bad_csv.txt', 'wb') as f: 
for row in results: 
f.write("," .join(map(str，row))) # 可 能 包含 了 太 多 逗号 | 
f.write("\n") # 行 也 可 能 会 换行 ! 


你 最 终 会 得 到 像 下 面 这 样 一 个 csv 文件 : 

















test1,success,Monday 
test2,success, kind of,Tuesday 
test3,failure, kind of,Wednesday 
test4,failure, utter,Thursday 


没 人 能 看 慌 它 的 意思 。 


9.3 ”网 络 抓 取 


另 一 种 获取 数据 的 方法 是 从 网 页 抓 取 数据 。 获 取 一 个 网 页 十 分 容易 ， 但 从 网 页 上 抓 取 有 意 
义 的 结构 化 信息 就 不 那么 容易 了 。 


9.3.1 HTML 和 解析 方法 
网 络 上 的 页 面 是 由 HTML 写成 的 ， 其 中 文本 被 (理想 化 地 ) 标记 为 元 素 和 它们 的 属性 : 





<htmL> 
<head> 
<title>A web page</title> 
</head> 
<body> 
<p id="author">Joel Grus</p> 
<p id="subject">Data Science</p> 
</body> 
</htmL> 


在 理想 的 情况 下 ， 所 有 的 网 页 为 我 们 方便 地 按 语义 标记 ， 我 们 可 以 使 用 类 似 这 样 的 规则 
来 提取 数据 : eae ed ER 但 在 真实 的 世界 中 ， 


HTML 并 不 总 是 具有 很 好 的 格式 的 ， 更 不 用 说 注解 了 。 这 意味 着 如 果 我 们 想 搞 清 其 含义 ， 
要 一些 帮助 












































为 了 从 HTML 里 得 到 数据 ， 我 们 需要 使 用 BeatifulSoup 库 (http://www.crummy.com/ 
software/BeautifulSoup/) ， 它 对 来 自 网 页 的 多 种 元 素 建立 了 树 结构 ， 并 提供 了 简单 的 接口 来 
获取 它们 。 本 书写 作 时 ， 最 新 的 版 本 是 Beatiful Soup 4.3.2 (pip instaLL beautifulsoup4)， 
我 们 即将 用 到 的 就 是 这 个 版 本 。 我 们 也 会 用 到 requests 库 (pip instaLL requests, http:// 
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docs.python-requests.org/en/latest/)， 它 与 内 置 在 Python 中 的 其 他 方法 相 比 ， 是 一 种 发 起 
HTTP 请 求 的 更 好 的 方式 。 





Python 内 置 的 HTML 解析 器 是 有 点 严格 的 ， 这 意味 着 它 并 不 总 是 能 处 理 那 些 没 有 很 好 地 
格式 化 的 HTML。 因 此 ， 我 们 需要 使 用 另外 一 种 解析 器 ， 它 需要 先 安 装 : 


pip install htmL5Lib 


为 了 使 用 Beatiful Soup， 我 们 要 把 一 些 HTML 传递 给 Beautifulsoup() 函数 。 在 我 们 的 例 
子 中 ， 这 些 HTML 是 对 requests.get 进行 调用 的 结果 : 

















from bs4 import BeautifulSoup 

import requests 

html = requests.get("http://www.example.com").text 
soup = BeautifulSoup(html, "htmL5Lib ' ) 


完成 这 个 步骤 之 后 ， 我 们 可 以 用 一 些 简单 的 方法 得 到 完美 的 解析 。 
通常 我 们 会 处 理 一 些 Tag 对 象 ， 它 们 对 应 于 HTML 页 面 结构 的 标签 表示 。 
比如 ， 找 到 你 能 用 的 第 一 个 <p> 标签 (及 其 内 容 ) : 

first_paragraph = soup.find('p') # 或 仅仅 soup.p 
可 以 对 Tag 使 用 它 的 text 属性 来 得 到 文本 内 容 : 


first_paragraph_text = soup.p.text 
first_paragraph_words = soup.p.text.split() 





男 外 可 以 把 标签 当 作 字典 来 提取 其 属性 : 





first paragraph_id = soup.p[ 'id'] # 如 果 没 有 'id' 则 报 出 KeyError 
first_paragraph_id2 = soup.p.get('id')  # 如 果 疫 有 'id' 则 返回 None 





可 以 一 次 得 到 多 个 标签 : 


all_paragraphs = soup.find all('p') # 或 仅仅 soup('p') 
paragraphs_with_ids = [p for pin soup('p') if p.get('id')] 


常 你 会 想 通过 一 个 类 (class) 来 找到 标签 : 


important_paragraphs = soup('p', {'class' : 'important'}) 
important_paragraphs2 = soup('p', 'important') 
important_paragraphs3 = [p for p in soup('p') 

if 'important' in p.get('class', [])] 


此 外 ， 可 以 把 这 些 方法 组 合 起 来 运用 更 复杂 的 逻辑 。 比 如 ， 如 果 想 找 出 包含 在 一 个 <div> 
元 素 中 的 每 一 个 <span> 元 素 ， 可 以 这 么 做 : 





# 警告 ,将 多 次 返回 同一 个 span 元 素 
# 如 果 它 位 于 多 个 div 元 素 里 
# 如 果 是 这 种 情况 ,要 更 谨慎 一 些 
spans_inside divs = [span 
for div in soup('div') # 对 页 面 上 的 每 个 <div> 
for span in div('span')] # 找到 其 中 的 每 一 个 <span> 


仅仅 上 述 儿 个 特性 就 可 以 帮助 我 们 做 很 多 事 。 如 果 你 需要 做 更 复杂 的 事情 (或 仅仅 是 出 于 
好 奇 )， 那 就 去 查看 文档 吧 。 


当然 ， 无 论 多 重要 的 数据 ， 通 第 也 不 会 标记 成 class="important"。 你 需要 仔细 检查 源 
HTML， 通 过 你 选择 的 逻辑 进行 推理 ， 并 多 考虑 边界 情况 来 确保 数据 的 正确 性 。 接 下 来 我 
们 看 一 个 例子 。 


9.3.2 案例: 关于 数据 的 O"Reilly 图 书 

DataSciencester 的 某 位 潜在 投资 者 认为 数据 只 会 风靡 一 时 。 为 了 证 明 他 是 错 的 ， 你 打算 查 
看 一 下 O’Reilly 出 版 社 这 些 年 来 总 共 出 版 过 多 少数 据 类 的 图 书 。 通 过 对 OReilly 网 站 的 控 
据 ， 你 发 现 它 有 许多 有 关 数 据 图 书 (以 及 视频 ) 的 页 面 ， 每 次 30 个 条 目的 目录 页 面 有 这 
样 的 URL: 



































http://shop.oreilly.com/category/browse-subjects/data.do? 
sortby=publicationDate&page=1 


我 们 都 不 策 (而 且 也 不 想 让 自己 的 抓 取 器 被 封 )， 所 以 在 每 次 从 网 站 抓 取 数 据 之 前 都 该 看 
一 下 这 家 网 站 是 否 有 某 种 获取 政策 。 查看 以 下 页 面 : 





http://oreilly.com/terms/ 


看 起 来 对 这 个 项 目 没 有 明文 禁止 。 但 为 了 做 一 个 守法 的 好 公民 ， 我 们 还 应 该 查看 一 下 
robots.txt 文件 ， 看 看 一 个 网 络 抓 取 者 要 有 怎样 的 行为 规范 。http:/shop.oreilly.comy/robots.txt 
有 以 下 重要 内 容 : 





Crawl-delay: 30 
Request-rate: 1/30 





第 一 行 告诉 我 们 应 该 在 两 次 请 求 之 间 等 待 30 秒 ， 第 二 行 告诉 我 们 每 30 秒 只 能 请 求 一 个 页 
面 。 所 以 从 根本 上 说 这 两 行 原则 讲 的 是 同一 件 事 。( 文 件 里 还 有 一 些 内 容 说 明 有 些 目 录 页 
是 不 能 抓 取 的 ， 但 是 我 们 的 URL 不 在 其 中 ， 所 以 我 们 可 以 放心 了 。) 


O’Reilly 是 有 可 能 改变 某 些 网 站 政策 的 ， 那 样 会 打破 本 小 节 的 所 有 逻辑 。 我 
会 尽 我 所 能 预防 这 种 情况 的 发 生 ， 当 然 ， 我 对 O?Reilly 并 没有 太 大 的 影响 
力 。 然 而 ， 如 果 你 们 每 人 都 发 动 所 有 认识 的 人 买 一 本 这 书 的 话 …… 
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为 了 大 清 该 怎样 提取 数据 ， 让 我 们 下 载 其 中 一 个 页 面 ， 把 它 传 给 Beatiful Soup， 














# 除非 是 写 进 书 里 ,否则 你 没 必 要 这 样 拆 分 一 个 url 

url = "http://shop.oreilly.com/category/browse-subjects/" + \ 
"data.do?sortby=publicationDate&page=1" 

soup = BeautifuLSoup(requests.get(urL) .text， 'htmL5Lib ' ) 








如 果 你 查看 页 面 的 源 代码 (在 浏览 器 中 右键 选择 “查看 源 代码 ”或 “查看 网 页 源 代码 ”， 
或 其 他 最 接近 的 选项 ) ， 会 看 到 每 本 书 (或 每 部 视频 ) 都 唯一 地 包含 在 一 个 表格 单元 格 元 
素 <td> 中 ， 它 的 类 是 thumbtext。 下 面 的 内 容 是 某 本 书 相关 的 HTML (一 个 删 减 的 版 本 ) : 
































<td class="thumbtext"> 
<div class="thumbcontainer"> 
<div class="thumbdiv"> 
<a href="/product/9781118903407.do"> 
<img src="..."/> 
</a> 
</div> 
</div> 
<div class="widthchange"> 
<div class="thumbheader"> 
<a href="/product/9781118903407.do">Getting a Big Data Job For Dummies</a> 


</div> 
<div class="AuthorName">By Jason Williamson</div> 
<span class="directorydate"> December 2014 </span> 


<div style="clear:both;"> 
<div id="146350"> 
<span class="pricelabel"> 
Ebook: 


<span class="price">&nbsp;$29.99</span> 
</span> 
</div> 
</div> 
</div> 
</td> 


良好 的 开端 是 找到 所 有 的 td thumbtext 标签 元 素 : 


tds = soup('td', 'thumbtext') 
print len(tds) 
# 30 


接 下 来 我 们 要 过 滤 掉 视频 。( 那 位 潜在 的 投资 者 只 对 书 感 兴趣 。) 如 果 我 们 进一步 地 检查 
HTML， 会 看 到 每 个 td 会 包含 一 个 或 更 多 个 类 为 pricelabel 的 span 元 素 ， 它 的 文本 看 
起 来 像 Ebook: 或 者 video: 或 者 Print:。 看 起 来 视频 仅 包 含 一 个 pricelabel， 它 的 文本 以 
Video (在 移 除 前 导 空 格 之 后 ) 开头 。 这 意味 着 我 们 可 以 这 样 来 检测 视频 : 








def is video(td): 


mm 


it's a video if it has exactly one pricelabel, and if 
the stripped text inside that pricelabel starts with 'Video 


下 下 下 下 
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pricelabels = td('span', 'pricelabel') 
return (len(pricelabels) == 1 and 
pricelabels[0].text.strip().startswith("Video")) 


print Len([td for td ;in tds if not is_video(td)]) 
# 对 我 来 说 结果 是 21, 你 得 到 的 结果 可 能 会 不 同 


现在 我 们 已 准备 好 要 从 td 元 素 中 提取 数据 了 。 看 起 来 图 书 的 标题 是 包含 在 <div 
class="thumbheader"> 里 的 标签 <a> 中 的 文本 : 





title = td.find("div", "thumbheader").a.text 


作者 ( 们 ) 的 名 字 在 AuthorName <div> 的 文本 里 。 它 们 由 一 个 By (我 们 打算 去 掉 它 ) 开 
头 ， 由 逗号 分 隔 (我 们 打算 把 它们 分 隔 开 ， 然 后 去 掉 其 中 的 空格 ) : 








author_name = td.find('div', 'AuthorName').text 


authors = [x.strip() for x in re.sub("^By "， ,author_name).split(",")] 
ISBN 看 起 来 是 包含 在 thumbheader <div> 中 的 链接 里 : 
isbn_link = td.find("div", "thumbheader").a.get("href") 


# re.match 捕 捉 了 括号 中 的 正则 表达 式 部 分 
isbn = re.match("/product/(.*)\.do", isbn_link).group(1) 





日 期 就 是 <span class="directorydate"> 的 内 容 : 


date = td.find("span", "directorydate").text.strip() 
让 我 们 把 所 有 这 些 都 放 到 一 个 函数 里 边 : 


def book_info(td): 
"""given a BeautifulSoup <td> Tag representing a book, 
extract the book's details and return a dict""" 


title = td.find("div", "thumbheader").a.text 

by_author = td.find('div', 'AuthorName').text 

authors = [x.strip() for x in re.sub("^By ", "", by_author).split(",")] 
isbn_link = td.find("div", "thumbheader").a.get("href") 

isbn = re.match("/product/(.*)\.do", isbn_link).groups()[0] 

date = td.find("span", "directorydate").text.strip() 


return { 
"title" : title, 
"authors" : authors, 
"isbn" : isbn, 
"date" : date 

} 


现在 我 们 准备 好 进行 抓 取 了 : 
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from bs4 import BeautifulSoup 

import requests 

from time import sleep 

base_url = "http://shop.oreilly.com/category/browse-subjects/" + \ 
"data.do?sortby=publicationDate&page=" 


books = [] 


NUM_PAGES = 31 # 这 是 写作 本 书 时 的 值 ,现在 有 可 能 更 多 





for page_num ;in range(1, NUM_PAGES + 1): 
print "souping page", page_num, ",", len(books), " found so far" 
url = base_url + str(page_num) 


soup = BeautifuLSoup(requests.get(urL) .text， 'html5lib') 


for td in soup('td', "thumbtext ' ) : 
if not is_video(td): 
books.append(book_info(td)) 





# 现在 做 一 个 好 公民 ,遵守 robots. txt1 
sleep(30) 


像 这 样 从 HTML 中 提取 数据 更 像 是 一 种 数据 艺术 而 不 是 数据 科学 。 除 了 上 例 
之 外 ， 你 还 可 以 从 HTML 中 实施 查找 图 书 、 查 找 标题 等 不 计 其 数 的 类 似 的 逻 











既然 已 经 收集 好 了 数据 ， 现 在 就 可 以 把 每 一 年 出 版 的 图 书 数据 绘制 出 来 (如 图 9-1) : 














def get_year(book): 
"""book[ "date"] looks like 'November 2014 so we need to 
split on the space and then take the second piece""”" 
return int(book["date"].split()[1]) 


# 2014 是 包含 数据 的 最 后 一 个 完整 的 年 份 (我 运行 这 段 代码 的 时 间 ) 
year_counts = Counter(get year(book) for book in books 
if get_year(book) <= 2014) 





import matplotlib.pyplot as plt 

years = sorted(year_counts) 

book_counts = [year_counts[year] for year in years] 
plt.plot(years, book_counts) 

plt.ylabel(" 数 据 图 书 的 数量 ") 

plt.title(" 数 据 大 发 展 ! ") 

plt.show() 
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图 9-1: 每 年 数据 图 书 的 出 版 数量 
不 季 的 是 ， 那 位 汶 在 的 投资 者 看 到 这 张 图 后 断言 2013 年 是 “数据 时 代 的 匮 峰 ”。 


9.4 使 用 API 


许多 网 站 和 网 络 服务 提供 相应 的 应 用 程序 接口 (Application Programming Interface，API)， 
允许 你 明确 地 请 求 结 构 化 格式 的 数据 。 这 省 去 了 你 不 得 不 抓 取 数 据 的 麻烦 ! 





9.4.1 JSON (和 XML) 


因为 HTTP 是 一 种 转换 文本 的 协议 ， 你 通过 网 络 API 请 求 的 数据 需要 囊 行 化 (serialized) 
地 转换 为 字符 串 格 式 。 通 常 这 种 串 行 化 使 用 JavaScript 对 象 符号 (JavaScript Object 
Notation，JSON) 。JavaScript 对 象 看 起 来 和 Python 的 字典 很 像 ， 使 得 字符 串 表 达 非 常 容 易 
解释 : 


{ "title" : "Data Science Book", 
"author”: "Joel Grus", 
"publicationYear"” : 2014, 
"topics" : [ "data", "science", "data science"] } 
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我 们 可 以 使 用 Python 的 json 模块 来 解析 JSON。 尤 其 是 ， 我 们 会 用 到 它 的 Loads 函数 ， 
个 函数 可 以 把 一 个 代表 JSON 对 象 的 字符 串 反串 行 化 〈deserialize) 为 Python 对 象 : 


[ey 


import json 


serialized = """{ "title" : "Data Science Book", 
"author”: "Joel Grus", 
"publicationYear" : 2014, 
"topics" : [ "data", "science", "data science"] }""" 























# 解析 JSON 以 创建 一 个 Python 字 典 

deserialized = json.loads(serialized) 

if "data science" in deserialized["topics"]: 
print deserialized 

















有 时 候 API 的 提供 者 可 能 会 不 耐烦 ， 只 给 你 提供 XML 格式 的 啊 应 : 





<Book> 
<Title>Data Science Book</Title> 
<Author>Joel Grus</Author> 
<PublicationYear>2014</PublicationYear> 
<Topics> 
<Topic>data</Topic> 
<Topic>science</Topic> 
<Topic>data science</Topic> 
</Topics> 
</Book> 





我 们 也 可 以 仿照 从 HTML 获取 数据 的 方式 ， 用 Beautifulsoup 从 XML 中 获取 数据 ， 更 多 
细节 可 查阅 文档 。 


9.4.2 ”使 用 无 验证 的 API 

现在 大 多 数 的 API 要 求 你 在 使 用 之 前 先 验 证 身份 。 而 阁 我 们 不 愿 勉强 自己 届 就 这 种 政 
策 ，API 会 给 出 许多 其 他 的 陈 词 滥 调 来 阻止 我 们 的 浏览 。 因 此 ， 先 来 看 一 下 GitHub 的 API 
(https://developer.github.com/v3/) ， 利 用 它 我 们 可 以 做 一 些 简单 的 无 需 验证 的 事情 : 




















import requests, json 
endpoint = "https://api.github.com/users/joelgrus/repos" 


repos = json.loads(requests.get(endpoint).text) 











此 处 repos 是 一 个 Python 字典 的 列表 ， 其 中 每 一 个 字典 表示 我 的 GitHub 账户 的 一 个 代 
码 仓库 。( 可 以 随意 替换 成 你 的 用 户 名 ， 以 取得 你 的 代码 仓库 的 数据 。 你 有 GitHub 账 
号 ， 对 吧 ? ) 


这 个 结果 能 指出 哪个 月 哪 一 周 的 哪 一 天 我 最 愿意 创建 代码 仓库 。 唯 一 的 问题 是 ， 响 应 里 的 
日 期 是 (Unicode) 字符 串 : 











Uu'created_at': uy'2013-07-05T02:02:282Z" 
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Python 本 身 没 有 很 强大 的 日 期 解析 器 ， 所 以 我 们 需要 安装 一 个 : 
pip install python-dateutil 

其 中 你 需要 的 可 能 只 是 dateutil.parser.parse 国 数 : 
from dateutil.parser Import parse 
dates = [parse(repo["created_at"]) for repo in repos] 


month_counts = Counter(date.month for date in dates) 
weekday_counts = Counter(date.weekday() for date in dates) 


类 似 地 ， 你 可 以 获取 我 最 后 五 个 代码 仓库 所 用 的 语言 : 





last_5_repositories = sorted(repos, 
key=Lambda r: r["created_at"], 
reverse=True)[:5] 


Last_5_Languages = [repo["language"] 
for repo in last_5_repositories] 
通常 我 们 无 需 在 “做 出 请 求 而 且 自 己 解 析 响 应 ”这 种 低层 次 上 使 用 API。 使 用 Python 的 
好 处 之 一 是 已 经 有 人 建 好 了 库 ， 方 便 你 访问 你 感 兴趣 的 几乎 所 有 API。 这 些 库 可 以 把 事情 
做 好 ， 为 你 省 下 查找 API 访问 的 诸多 元 长 细节 的 麻烦 。( 如 果 这 些 库 不 能 很 好 地 完成 任务 ， 
或 者 它们 依赖 的 是 对 应 的 API 已 失效 的 版 本 ， 那 就 会 给 你 带 来 巨大 的 麻烦 。) 






































尽管 如 此 ， 偶 尔 你 还 是 需要 操作 你 自己 的 API 访问 库 (或 者 ， 更 常见 的 ， 去 调试 别人 不 能 
顺利 操作 的 库 ) ， 所 以 了 解 一 些 细节 是 很 有 好 处 的 。 








9.4.3 寻找 API 

如 有 果 你 需要 一 个 特定 网 站 的 数据 ， 可 以 查看 它 的 开发 者 部 分 或 API 部 分 的 细节 ， 然 后 以 关 
键 词 “python_api” 在 网 络 上 搜索 相应 的 库 。Python 有 一 个 Rotten Tomatoes 的 库 。Python 
还 有 针对 Klout、Yelp、IMDB 等 的 多 个 API 封 装 。 


如 果 你 想 查看 有 Python 封装 的 API 列表 ， 可 参阅 Python API (http://www.pythonapi.com/) 
和 Python for Beginners (http://www.pythonforbeginners.com/development/list-of-python-apis/) 
中 的 两 个 名 录 。 


如 果 你 想 要 的 是 一 份 更 宽泛 的 网 络 API 名 录 (不 一 定 含 有 Python 封装 ) ，Programmable 
Web (http:/www.programmableweb.com/) 是 个 好 的 资源 ， 它 有 一 个 关于 分 好 类 的 API 的 
庞大 名 录 。 


如 果 最 终 还 是 找 不 到 你 需要 的 API， 还 是 可 以 通过 抓 取 获得 的 。 这 是 数据 科学 家 最 后 的 
绝招 。 
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9.5 ”案例 : 使 用 Twitter API 

Twitter 是 一 个 非常 好 的 数据 产 。 你 可 以 从 它 得 到 实时 的 新 闻 ， 可 以 用 它 来 度量 对 当前 事件 
的 反应 ， 可 以 利用 它 找到 与 特定 主题 有 关 的 链接 。 使 用 Twitter 可 以 做 几乎 任何 你 能 想到 
的 事 ， 只 要 你 能 获得 它 的 数据 。 可 以 通过 它 的 API 来 获得 数据 。 














为 了 和 Twitter API 互动 ， 我 们 需要 使 用 Twython 库 (pip install twython，https:Wgithub. 
com/ryanmcgrath/twython)。 实 际 上 有 很 多 Python Twitter 的 库 ， 但 这 一 个 是 我 用 过 的 库 中 
最 好 用 的 一 个 。 你 也 可 以 尝试 一 下 其 他 的 库 。 


获取 证 明文 件 

为 了 使 用 Twitter 的 API， 需 要 先 获 取 一 些 证 明文 件 (为 此 你 无 论 如 何 都 要 有 一 个 Twitter 
的 账户 ， 这 样 你 就 能 成 为 一 个 活跃 友好 的 Twitter #datascience 社区 的 一 部 分 )。 就 像 那些 
所 有 我 不 能 控制 的 网 站 的 指令 一 样 ， 它 们 会 在 某 个 时 刻 过 时 ， 但 是 现在 还 是 能 发 挥 一 段 时 
间 的 作用 的 。( 尽 管 在 我 写作 本 书 的 这 段 时 间 里 ， 它 们 至 少 已 经 变更 过 一 次 了 ， 所 以 祝 你 
好 运 ! ) 











1. 找到 链接 https://apps.twitter.com/。 

2. 如 果 你 还 没有 注册 ， 点 击 “ 注 册 ”， 并 输入 你 的 Twitter 用 户 名 和 密码 。 

3. 点 击 “ 创 建新 App”。 

4. 给 它 起 个 名 字 (比如 “数据 科学 ”) 并 添加 一 些 描 述 ， 放 上 一 个 任意 的 URL 作为 网 址 
(不 用 在 乎 是 哪个 ) 。 

5. 同意 “服务 条 款 ” 并 点 击 “ 创 建 "。 

6. 注意 消费 者 钥匙 (consumer key) 和 消费 者 密码 (consumer secret)。 

7. 点 击 “ 创 建 我 的 访问 令 牌 ”(access token)。 

8. 注意 访问 令 牌 和 访问 令 牌 密码 (你 可 能 需要 刷新 页 面 )。 














消费 者 钥匙 和 消费 者 密码 告诉 Twitter 什么 应 用 正在 访问 它 的 API， 而 访问 令 牌 和 访问 令 牌 
密码 告诉 Twitter 是 谁 正在 访问 它 的 API。 如 果 你 曾经 用 Twitter 账户 访问 过 一 些 其 他 网 站 ， 
“点 击 验 证 ”页 面 会 生成 一 个 访问 令 牌 ， 网 站 会 用 这 个 令 牌 来 告诉 Twitter 访问 者 是 你 (或 
者 至 少 是 来 自 你 的 操作 )。 因 为 不 需要 这 种 “让 任何 人 登录 ”的 功能 ， 我 们 可 以 获得 静态 
生成 的 访问 令 牌 和 访问 令 牌 密码 。 





消费 者 钥匙 / 密码 和 访问 令 牌 钥匙 / 密码 应 该 被 看 成 是 密码 (password)。 你 
不 该 分 享 它们 ， 不 该 把 它们 印 在 书 里 ， 也 不 应 该 把 它们 记录 在 GitHub 公共 
代码 库 里 。 一 种 简单 的 方法 是 把 它们 存储 在 不 会 被 签 入 的 credentials.json 文 
件 里 ， 而 且 可 以 使 用 json.loads 取 回 它们 。 
























































使 用 Twython 
首先 我 们 来 看 看 Search API (https://dev.twitter.com/docs/api/1.1/get/search/tweets)， 这 个 操 
作 只 需要 消费 者 钥匙 和 密码 ， 无 需 访 问 令 牌 或 密码 : 


from twython import Twython 


twitter = Twython(CONSUMER_KEY，CONSUMER_SECRET) 


# 搜索 包含 短语 “数据 科学 ”的 推 文 

for status in twitter.search(q='"data science"')["statuses"]: 
user = status["user"]["screen_name" ] .encode( utf-8 ') 
text = status["text"] .encode('utf-8 ') 
print user, ":", text 
print 


因为 推 文中 经 常 包含 print 函数 无 法 处 理 的 Unicode 字符 ， 所 以 有 必要 使 
用 .encode("utf-8") 来 应 对 这 个 问题 。( 如 果 对 这 个 问题 放任 不 管 ， 很 有 可 
能 会 得 到 UnicodeEncodeError 的 报错 。) 














几乎 可 以 肯定 ， 你 会 在 数据 科学 家 职业 生涯 的 某 些 时 刻 遇 到 严重 的 Unicode 
问题 ， 这 时 你 需要 参考 Python 文档 (https://docs.python.org/2/howto/unicode. 
html) 或 者 勉 为 其 难 地 开始 使 用 Python 3 吧 ， 因 为 它 能 更 好 地 处 理 Unicode 
文本 。 














如 果 你 运行 这 段 代 码 ， 会 得 到 一 些 像 这 样 的 推 文 : 


haithemnyc: Data scientists with the technical savvy &amp; analytical chops to 
derive meaning from big data are in demand. http://t.co/HsF9Q0dShP 


RPubsRecent: Data Science http://t.co/6hcHUz2PHM 


spleonard1: Using #dplyr in #R to work through a procrastinated assignment for 
@rdpeng in @coursera data science specialization. So easy and Awesonme. 

















这 并 不 十 分 有 趣 ， 很 大 程度 上 是 因为 Twitter Search API 只 给 你 显示 它 认为 最 近 的 结果 ， 无 
论 内 容 有 多 么 少 。 但 对 于 数据 科学 工作 ， 通 常 你 需要 大 量 的 推 文 。 这 时 ，Streaming API 
(https://dev.twitter.com/streaming/reference/get/statuses/sample) 就 有 用 武之 地 了 ， 它 允许 你 
连接 到 强大 的 Twitter firehose 接口 (的 一 个 样本 )。 你 需要 使 用 访问 令 牌 进行 验证 ， 才 可 
以 使 用 这 个 API。 





为 了 用 Twython 访问 Streaming API， 需 要 定义 一 个 从 TwythonStreamer 继承 的 类 ， 并 用 这 
个 类 的 on_success 方法 覆盖 (当然 也 可 能 是 用 它 的 on_error 方法 来 履 盖 ) : 





from twython import TwythonStreamer 


# 把 数据 添加 到 全 局 变量 是 一 种 非常 差 的 形式 
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# 但 会 让 这 个 例子 更 简单 
tweets = [] 


class MyStreamer(TwythonStreamer): 
"""our own subclass of TwythonStreamer that specifies 
how to interact with the stream""”" 


def on_success(self, data): 
"""Wwhat do we do when twitter sends us data? 
here data will be a Python dict representing a tweet 


Mmm 





# 只 收集 英文 的 推 文 
if data['Lang'] == 'en': 
tweets .append(data) 
print "received tweet #", len(tweets) 

















# 当 收 集 了 足够 多 的 推 文 就 停止 
if len(tweets) >= 1000: 
self.disconnect() 





def on_error(self, status_code, data): 
print status_code, data 
self.disconnect() 


MyStreamer 会 连接 到 Twitter 流 并 等 待 Twitter 给 它 发 送 数 据 。 它 每 收 到 一 些 数据 (在 这 


里 ,一 条 推 文 表示 为 一 个 Python 对 象 ) 就 传递 给 on_success 方法 ， 如 果 推 文 是 英文 的 ， 
这 个 方法 会 把 推 文 附加 到 tweets 列表 中 ， 在 收集 到 1000 条 推 文 后 会 断 开 和 流 的 连接 。 





剩 下 的 工作 就 是 初始 化 和 启动 运行 了 : 


stream = MyStreamer(CONSUMER_KEY，CONSUMER_SECRET ， 
ACCESS_TOKEN ，ACCESS_TOKEN_SECRET) 





# 开始 使 用 包含 关键 词 'data' 的 公共 状态 


stream.statuses.filter(track= ‘gata') 











# 如 果 我 们 想 使 用 *all* 公 共 状 态 的 样本 


# stream.statuses.sample() 


会 一 直 运 行 下 去 直到 收集 1000 条 推 文 为 止 (或 直到 遇 到 一 个 错误 为 止 )， 此 时 就 可 以 着 
bo 文 些 推 文 了 。 比 如 ， 你 可 以 用 下 面 的 方法 寻找 最 常见 的 标签 : 





























top_hashtags = Counter(hashtag[ text'].Lower() 
for tweet in tweets 
for hashtag in tweet["entities"]["hashtags"]) 


print top_hashtags.most_common(5) 





每 条 推 文 都 包含 许多 数据 。 你 可 以 自己 尝试 一 下 各 种 方法 ， 或 仔细 查阅 Twitter API 的 文档 


(https://dev.twitter.com/overview/api/tweets ) 。 














在 一 个 正式 的 项 目 中 ， 你 可 能 并 不 想 依赖 内 存 中 的 列表 来 存储 推 文 。 相 反 ， 
你 可 能 想 把 推 文保 存在 文件 或 者 数据 库 中 ， 这 样 就 可 以 永久 地 拥有 它们 。 
































9.6 ”延伸 学 习 


。 pandas (http://pandas.pydata.org/) 是 数据 科学 用 来 处 理 (特别 是 导入 ) 数据 的 一 个 主要 
的 库 。 

。 Scrapy (http://scrapy.org/) 是 一 个 特性 更 全 的 库 ， 可 用 来 构建 更 复杂 的 网 络 抓 取 器 ， 来 
执行 类 似 跟踪 未 知 链接 等 任务 。 
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第 10 章 


数据 工作 





专家 更 依赖 数据 ， 而 非 主 观 判 断 。 


一 一 科 林 : 鲍威尔 





数据 工作 既是 艺术 又 是 科学 。 前 面 我 们 讨论 的 大 多 是 数据 的 科学 的 一 面 ， 这 一 章 我 们 来 管 
宪 其 艺术 的 一 面 。 


10.1 探索 你 的 数据 


当 确 定 了 需要 研究 的 问题 ， 并 已 获取 了 一 些 数据 时 ， 你 摩 拳 探 掌 地 恨不得 马上 建 模 求 解 。 
但 是 ， 你 需要 克制 一 下 。 首 先 ， 你 应 该 探索 数据 。 


10.1.1 探索 一 维 数 据 

最 简单 的 情形 是 ， 你 得 到 的 一 个 数据 集合 仅仅 是 一 维 数据 集 。 比 如 ， 它 们 可 以 是 每 个 用 户 
在 你 的 网 站 上 平均 每 天 花费 的 时 间 ， 每 个 数据 科学 教程 视频 的 观看 次 数 ， 或 者 是 你 的 数据 
科学 图 书馆 中 每 本 数据 科学 书 的 页 数 。 




















第 一 步 显 然 是 计算 一 些 总 结 性 统计 数据 。 比 如 你 可 能 想 知道 你 的 数据 集中 有 多 少 个 数据 
点 ， 最 小 值 是 多 少 ， 最 大 值 是 多 少 ， 平 均值 是 多 少 ， 或 者 标准 差 是 多 少 。 

如 有 果 你 仍 不 能 很 好 地 理解 以 上 步 又， 那么 下 一 步 最 好 是 绘 出 直方 图 ， 即 将 你 的 数据 分 组 成 
离散 的 区 间 (bucket) ， 并 对 落 入 每 个 区 间 的 数据 点 进行 计数 : 











112 


def bucketize(point, bucket size): 
"""floor the point to the next lower multiple of bucket_ size 
return bucket_ size * math.floor(point / bucket_ size) 


mm 


def make_histogram(points, bucket size): 
"""buckets the points and counts how many in each bucket""" 
return Counter(bucketize(point, bucket size) for point in points) 


def plot histogram(points, bucket_ size, title=""): 
histogram = make_histogram(points, bucket_ size) 
plt.bar(histogram.keys(), histogram.values(), width=bucket_ size) 
plt.title(title) 
plt.show() 


比如 ， 考 虑 以 下 两 个 数据 集 : 
random.seed(0) 


# -100 到 100 之 间 均 匀 抽 取 


uniform = [200 * random.random() - 100 for 


# 均值 为 6 标准 差 为 57 的 正 态 分 布 
normal = [57 * inverse_ normal_cdf(random.random()) 
for _ in range(10000)] 


这 两 个 数据 集 的 均值 都 接近 0， 标 准 差 都 接近 58 ， 但 它们 的 分 布 非常 不 同 。 图 10-1 展示 
了 均匀 分 布 。 


in range(10000)] 





均匀 分 布 的 直方 图 
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图 10-1: 均匀 分 布 的 直方 图 
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plot_histogram(uniform，10," 均 勺 分 布 的 直方 图 ") 
而 图 10-2 展示 了 正 态 分 布 : 
pLot_histogram(normaL，10，" 正 态 分 布 的 直方 图 ") 


这 两 种 分 布 有 非常 不 同 的 最 大 值 和 最 小 值 。 但 是 ， 仅 仅 知道 这 一 点 并 不 足以 理解 它们 有 何 
差异 。 





太 和 吉方 图 
800 正 态 分 布 的 直方 图 
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图 10-2: 正 态 分 布 的 直方 图 


10.1.2 ”二 维 数据 


现在 假设 你 的 数据 集 是 二 维 的 。 也 许 在 每 天 上 网 时 间 之 外 还 增加 了 数据 科学 工作 年 限 。 你 
当然 会 希望 能 从 每 个 维度 上 单独 理解 数据 ， 但 也 许 你 更 希望 综合 两 个 维度 来 考察 数据 。 


比如 ， 考 察 下 面 一 个 伪 数据 集 : 


def random_normal(): 
"""returns a random draw from a standard normal distributton" 
return inverse_normal_cdf(random.random()) 


xs = [random normal() for _ in range(1000)] 
ys1 = [ x + random normal() / 2 for x in xs] 
ys2 = [-x + random normal() / 2 for x in xs] 
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如 果 你 对 ys1 和 ys2 运行 plot_histogranm 程序 ， 会 得 到 很 相似 的 直方 图 (事实 上 ， 两 个 正 
态 分 布 的 均值 和 标准 差 都 相同 )。 








但 是 在 联合 分 布 上 ， 每 个 都 与 xs 有 很 大 差别 ， 如 图 10-3 所 示 : 


plt.scatter(xs, ysi, marker='.', color='black', label='ys1') 
plt.scatter(xs, ys2, marker='.', color='gray', label='ys2') 
plt.xlabel('xs') 

plt.ylabel('ys') 

plt.legend(loc=9) 

plt.title(" 差 别 很 大 的 联合 分 布 ") 

plt.show() 





差别 很 大 的 联合 分 布 














图 10-3: 两 个 不 同 的 ys 的 散 点 图 
如 果 你 考察 相关 性 ， 差 异 会 非常 明显 : 


print correlation(xs, ys1) 


0.9 
print correlation(xs, ys2) -0.9 
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10.1.3 多维 数 据 
对 于 多 维 数据 ， 你 可 能 想 了 解 各 个 维度 之 间 是 如 何 相关 的 。 一 个 简单 的 方法 是 芳 察 相关 矩 
阵 (correlation matrix)， 和 矩阵 中 第 i 行 第 j 列 的 元 素 表 示 第 i 维 与 第 j 维 数据 的 相关 性 : 





def correlation_matrix(data): 
"""returns the num_columns x num_columns matrix whose (i, ij)th entry 


Mmm 


is the correlation between columns i and j of data 
_，num_coLumns = shape(data) 


def matrix_entry(i, j): 
return correlation(get column(data, i), get_column(data, j)) 


return make_matrix(num_columns, num_columns, matrix_entry) 





一 个 更 为 直观 的 方法 (如果 维 度 不 太 多 ) 是 做 散 点 图 矩阵 (图 10-4) ， 以 展示 配对 散 点 图 。 
通过 命令 plt.subplots() 可 以 生成 子 图 。 我 们 给 出 了 行 数 和 列 数 ， 它 返回 一 个 figure 对 
象 (我 们 不 会 用 到 它 ) 和 一 个 axes 对 象 的 二 维 数组 〈 每 个 都 会 绘 出 ) : 














import matplotlib.pyplot as plt 


_，num_coLumns = shape(data) 
fig, ax = plt.subplots(num_ columns, num_columns) 


for i in range(num_columns): 
for j in range(num_coLumns ) : 


# x 轴 上 coLumn_j 对 y 轴 上 coLumn 的 散 点 
if i != j: ax[i][j].scatter(get_column(data, j), get_column(data, i)) 





# 只 有 当 i == j 时 显示 序列 名 

else: ax[i][j].annotate("series " + str(i), (0.5, 0.5), 
xycoords='axes fraction', 
ha="center", va="center") 





# 除了 图 的 左 侧 和 下 方 之 外 ,隐藏 图 的 标记 
if i < num columns - 1: ax[i][j].xaxis.set visible(False) 
if j > 0: ax[i][j].yaxis.set visible(False) 














# 修复 右 下 方 和 左上 方 的 图 标记 

# 因为 它们 只 有 文本 ,是 错误 的 
ax[-1][-1].set xlim(ax[0][-1].get_xlim()) 
ax[0][0].set_ylim(ax[0][1].get_ylim()) 

















plt.show() 
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图 10-4: 散 点 图 矩阵 





通过 这 些 散 点 图 你 会 看 出 ， 序 列 1 与 序列 0 的 负 相 关 程度 很 高 ， 序 列 2 和 序列 1 的 正 相关 
程度 很 高 ， 序 列 3 的 值 仅 有 0 和 6， 并 且 0 对 应 序列 2 中 较 小 的 值 ，6 对 应 较 大 的 值 。 


这 是 一 种 能 让 你 查看 变量 之 间 大 概 的 相关 度 的 快捷 方法 (除非 你 为 了 查看 更 加 具体 的 效果 
而 花费 数 小 时 调整 matplottib， 这 样 就 不 快捷 了 )。 


10.2 ”清理 与 修改 

真实 世界 的 数据 是 有 很 多 问题 的 。 在 使 用 数据 之 前 ， 你 通常 需要 对 它们 进行 一 定 的 预 处 
理 。 我 们 在 第 9 章 举 过 这 样 的 例子 。 我 们 需要 把 字符 串 转 化 成 可 以 使 用 的 浮 点 型 数据 
(float) 或 者 整 型 数据 (int)。 以 前 ， 我 们 在 使 用 数据 之 前 会 这 样 做 : 





closing_price = float(row[2]) 
但 通过 建立 包括 csv.reader 的 函数 ， 这 样 进行 解析 更 不 容易 触发 误差 。 我 们 会 列 出 一 系 
列 解析 器 ， 每 个 解析 器 有 具体 说 明 其 中 一 列 如 何 解析 。 我 们 会 用 None 表示 “对 这 列 什 么 都 
不 做 ”: 
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def parse_row(input_row, parsers): 
"""given a list of parsers (some of which may be None) 
apply the appropriate one to each element of the input_row""”" 
return [parser(value) if parser is not None else value 
for value, parser in zip(input_row, parsers)] 


def parse_rows_with(reader, parsers): 
"""Wrap a reader to apply the parsers to each of its rows 
for row in reader: 
yield parse_row(row, parsers) 


mum 


如 果 有 不 良 数据 怎么 办 ? 一 个 浮 点 值 是 否 真正 代表 一 个 数字 ?我 们 通常 会 使 用 一 个 None 图 
数 而 非 硬 跑 程序 。 我 们 可 以 通过 一 个 辅助 函数 来 解决 : 








def try_or_none(f): 
"""wraps f to return None if f raises an exception 
assumes f takes only one input""" 
def f_or_none(x): 
try: return f(x) 
except: return None 
return f_or_none 


然后 我 们 重 写 parse_row 来 使 用 它 : 


def parse_row(input_row, parsers): 
return [try_or_none(parser)(value) if parser is not None else value 
for value, parser in zip(input_row, parsers)] 




















比如 ， 如 果 我 们 用 喜 号 分 割 的 股票 数据 中 有 不 良 数据 ; 


6/20/2014,AAPL ,90.91 
6/20/2014,MSFT ,41.68 
6/20/3014,FB,64.5 
6/19/2014,AAPL ,91.86 
6/19/2014,MSFT,n/a 
6/19/2014,FB,64.34 


我 们 现在 可 以 在 一 个 单独 步骤 中 读 入 和 解析 : 


import dateutil.parser 
data = [] 


with open("comma_delimited stock prices.csv", "rb") as f: 
reader = csv.reader(f) 
for Line in parse_rows_with(reader, [dateutil.parser.parse, None, float]): 
data.append( line) 


然后 我 们 只 需 检 查 其 中 None 的 行 数 : 
for row in data: 


if any(x is None for x in row): 
print row 





然后 再 决定 如 何 处 理 它 们 。( 一 般 来 说 ， 你 有 三 个 选择 : 删除 它们 ;济源 并 修复 不 良 数 据 
或 缺失 数据 ， 什么 都 不 做 ， 自 求 多 福 吧 。) 


我 们 可 以 为 csv.DictReader 创建 相似 的 帮助 函数 。 这 样 的 话 ， 你 很 可 能 希望 提供 基于 域名 
的 解析 字典 。 例 如 : 





def try_parse_field(field_name, valuye, parser_dict): 
"""try to parse value using the appropriate function from parser_dict""" 
parser = parser_dict.get(field name)  # 如 果 没 有 此 条 目 , 则 为 None 
if parser is not None: 
return try_or_none(parser)(value) 
else: 
return value 





def parse_dict(input_dict, parser_dict): 
return { field name : try_parse_field(field name, value, parser_dict) 
for field name, value in input dict.iteritems() } 


接 下 来 最 好 是 使 用 10.1 节 所 讲 的 技术 或 即时 分 析 来 确认 异常 值 。 比 如 ， 如 果 你 发 现 股票 
文件 中 有 一 个 数据 的 时 间 是 3014 年 ， 这 不 会 给 你 报错 提示 ， 但 这 显然 是 错误 的 数据 。 如 
果 你 没有 发 现 这 个 错误 ， 就 会 得 到 很 糟糕 的 结果 。 真 实 世 界 的 数据 集 充 斥 着 诸如 小 数 点 缺 
失 、 多 余 的 零 、 排 印 错 误 等 无 数 各 种 各 样 的 错误 ， 找 出 错误 是 你 责无旁贷 的 工作 。( 也 许 
这 不 是 你 的 正式 工作 ， 但 这 工作 又 非 你 做 不 可 。) 


10.3 ”数据 处 理 


数据 科学 家 的 核心 技能 之 一 就 是 处 理 数 据 。 与 其 说 它 是 一 种 特定 的 技术 ， 不 如 说 它 是 一 种 
通用 的 方法 ， 所 以 这 里 我 们 只 通过 一 些 例 子 客 其 一 二 。 


























假设 我 们 需要 处 理 如 下 股票 价格 字典 : 


data = [ 
{'closing_price': 102.06, 
'date': datetime.datetime(2014, 8, 29, 0, 0),， 
'symbol': 'AAPL'}, 
# ... 
] 


我 们 可 以 从 概念 上 将 它们 理解 为 行 ( 就 像 在 一 张 表 中 )。 


我 们 开始 对 这 些 数据 发 问 。 在 这 个 过 程 中 ， 我 们 会 不 断 关 注 做 事 所 使 用 的 模式 ， 并 抽象 出 
一 些 工 具 以 使 数据 的 处 理 更 容易 些 。 


比如 ， 如 果 我 们 想 知道 AAPL 有 史 以 来 的 最 高 收盘 价 ， 可 以 将 这 个 工作 分 解 成 具体 的 步 又: 




















() 将 数据 限定 在 AAPL 行 上 ; 
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(2) 从 每 行 提取 收盘 价 closing_price， 

(3) 取 价 格 中 的 最 大 值 max。 

我 们 可 以 使 用 一 个 列表 解析 一 次 性 完成 这 三 个 步骤 ; 
max_aapL_price = max(row["closing_price"] 


for row in data 
if row["symbol"] == "AAPL") 





更 一 般 地 ， 我 们 也 许 希 望 知道 数据 集中 每 只 股票 的 最 高 收盘 价 。 一 个 方法 如 下 所 示 。 


(1) 聚集 起 股票 代码 (symbol) 相同 的 行 。 
(2) 在 每 组 中 ， 重 复 之 前 的 工作 : 


# 按 股票 代码 对 行 分 组 

by_symbol = defaultdict(list) 

for row in data: 
by_symbol[row["symbol"]].append(row) 





# 使 用 字典 解析 找到 每 个 股票 代码 的 最 大 值 
max_price by_symbol = { symbol : max(row["closing_price"] 
for row in grouped_rows) 
for symbol, grouped_rows in by_symbol.iteritems() } 


有 一 些 模式 已 经 存在 。 在 以 上 两 个 例子 中 ， 我 们 需要 在 每 个 字典 dict 中 提取 出 收盘 价 
closing_price。 因 而 我 们 可 以 创建 一 个 函数 ， 以 从 字典 中 提取 一 个 字段 ， 并 创建 男 一 个 函 
数 ， 以 从 字典 集合 中 提取 出 同样 的 字段 : 























def picker(field name): 
"""returns a function that picks a Field out of a dict 
return Lambda row: row[fieLd_name] 


Mmmm 


def pluck(field_name, rows): 
"""turn a list of dicts into the list of field name values 
return map(picker(field_name), rows) 


mm 





我 们 同样 可 以 建立 一 个 函数 ， 通 过 group 函数 的 结果 把 行 分 组 ， 并 选择 性 地 对 每 组 使 用 
value_transforn 国 数 : 





def group_by(grouper ，rows，vaLue_transform=None ) : 
# 键 是 分 组 情况 的 输出 , 值 是 行 的 列表 
grouped = defaultdict(list) 
for row in rows: 
grouped[grouper (row)].append(row) 


if value_ transform is None: 
return grouped 
else: 
return { key : value_transform(rows) 
for key, rows in grouped.iteritems() } 





这 使 得 我 们 可 以 更 简单 地 再 现 先 前 的 例子 。 比 如 : 


max_price by_symbol = group_by(picker("symbol"), 
data, 
Lambda rows: max(pluck("closing_price", rows))) 


现在 我 们 可 以 癌 一 些 更 复杂 的 问题 ， 比 如 在 我 们 的 数据 集中 ， 单 日 百分比 变动 的 最 大 值 和 
最 小 值 分 别 是 什么 。 百 分 比 变动 的 公式 是 price_today/price_yesterday - 1 (即今 天 的 价 
格 /昨天 的 价格 -1)。 这 意味 着 我 们 需要 用 某 种 方式 将 今天 的 价格 和 昨天 的 价格 联系 起 来 。 
一 种 方法 是 按照 符号 将 价格 分 组 ， 再 在 每 组 中 : 


(1) 按照 日 期 排列 价格 ， 
(2) 通 过 命令 zip 得 到 配对 价格 (前 一 天 的 , 今天 的 ) ; 
(3) 将 配对 价格 转换 为 新 的 “百分比 变动 ” 行 。 


我 们 首先 写 一 个 函数 ， 来 完成 每 一 组 内 的 工作 : 














def percent_price_change(yesterday, today): 
return today["closing_price"] / yesterday["closing price"] - 1 


def day_over_day_changes(grouped_rows ) : 


# 按 日 期 对 行 排序 


ordered = sorted(grouped_ rows, key=picker("date")) 


# 对 偏 移 量 应 用 zip 函 数 得 到 连续 两 天 的 成 对 表示 
return [{ "symbol" : today["symbol"], 
"date" : today["date"], 
"change" : percent price change(yesterday, today) } 
for yesterday, today ;in zip(ordered, ordered[1:1)] 





然后 我 们 可 以 将 它 作 为 vatue_transform 在 group_by 中 使 用 : 





# 键 是 股票 代码 , 值 是 一 个 "change" 字 典 的 列表 
changes_by_symbol = group_by(picker("symbol"), data, day_over_day_changes) 

















# 收集 所 有 "change" 字 典 放 入 一 个 大 列表 中 

all_changes = [change 
for changes in changes_by_symbol.values() 
for change in changes] 


在 这 个 点 上 ， 很 容易 找到 最 大 值 与 最 小 值 : 





max(all_changes, key=picker("change")) 

# {'change': 0.3283582089552237， 

# 'date': datetime.datetime(1997, 8, 6, 0, 0), 

# 'symbol': 'AAPL'} 

# see, e.g. http://news.cnet.com/2100-1001-202143.html 
min(all_changes, key=picker("change")) 

# {'change': -0.5193370165745856 ， 

# 'date': datetime.datetime(2000, 9, 29, 0, 0),， 
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# 'symbol': 'AAPL'} 
# see, e.g. http://money.cnn.com/2000/09/29/markets/techwrap/ 





现在 我 们 可 以 使 用 这 个 新 的 aLL_changes 数据 集 来 找 出 投资 科技 股 的 最 佳 月 份 。 首 先 按 月 
份 对 变化 分 组 ;然后 在 每 组 中 计算 整体 变化 。 





我 们 再 次 写 一 个 恰当 的 value_transfornm 图 数 ， 然 后 使 用 group_by 国 数 : 


# 为 了 组 合 百分比 的 变化 ,我 们 对 每 一 项 加 1, 把 它们 相 乘 , 再 减 去 1 
# 比如 ,如 果 我 们 组 合 +10% 和 -20%， 总 体 的 改变 是 
# (1 + 10%) * (1 - 20%) - 1 =1.1* .8-1= -12% 
def combine pct_changes(pct_change1, pct_change?2): 

return (1 + pct change1) * (1 + pct change2) - 1 


def overall_change(changes): 
return reduce(combine_pct_changes, pluck("change", changes)) 


overall_change_by_month = group_by(Lambda row: row['date'].month, 


all_changes, 
overall_change) 


类 似 这 样 的 数据 处 理 方式 将 会 贯穿 全 书 ， 但 它 常 常 不 会 明显 地 引起 我 们 的 注意 。 


10.4 数据 调整 


许多 技术 对 数据 单位 (scale) 敏感 。 比 如 ， 假 设 你 有 一 个 包括 数 百 名 数据 科学 家 的 身高 和 
体重 的 数据 集 ， 并 且 需 要 创建 体型 大 小 的 聚 类 (cluster)。 











直观 上 讲 ， 我 们 用 聚 类 表示 相近 的 点 ， 这 意味 着 我 们 需要 某 种 点 距离 的 概念 。 我 们 知道 有 
欧 几 里 得 距离 函数 distance， 所 以 自然 地 ， 一 种 方法 是 将 数据 对 (height, weighb 视 为 二 维 
空间 中 的 点 。 考 虑 表 10-1 中 列 出 的 观测 对 象 。 


表 10-1: 身高 和 体重 





观测 对 象 ”身高 (英寸 ) ”身高 (厘米 ) ”体重 ( 磅 ) 
A 63 160 150 
B 67 170.2 160 
G 70 177.8 171 


如 果 我 们 用 英寸 作为 身高 的 单位 ， 那 么 B 最 近 的 邻居 是 A: 





= distance([63, 150], [67, 160]) #1 
a_to c = distance([63, 150], [70, 171]) # 22.14 
= distance([67, 160], [70, 171]) #1 

















但 是 ， 如 果 用 厘米 作为 单位 ， 那 么 B 最 近 的 邻居 变 成 了 C: 
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a_to_b = distance([160, 150], [170.2, 160]) # 14.28 
a_to c = distance([160, 150], [177.8, 171]) # 27.53 
b to c = distance([170.2, 160], [177.8, 171]) # 13.37 

显然 ， 如 果 单 位 变化 导致 结果 发 生 这 样 的 变化 ， 那 肯定 是 有 问题 的 。 因 此 ， 如 果 不 同 的 维 
度 之 间 不 可 比较 ， 就 需要 对 数据 进行 调整 (rescale)， 以 使 得 每 个 维度 的 均值 为 0， 标 准 差 
为 1。 这 种 转换 有 效 地 摆脱 了 单位 带 来 的 问题 ， 将 每 个 维度 转化 为 “与 均值 的 标准 差 ”。 


首先 ， 我们 需要 对 每 列 计 算 均 值 和 标准 差 : 











def scale(data_matrix): 
"""returns the means and standard deviations of each column""" 
Num_rows, Num_cols = shape(data_matrix) 
means = [mean(get_column(data_matrix,j)) 
for j in range(num_cols)] 
stdevs = [standard deviation(get column(data_ matrix,j)) 
for j in range(num_cols)] 
return means, stdevs 


然后 用 结果 创建 新 的 数据 矩阵 


def rescatLe(data_matrix): 
"""rescales the input data so that each column 
has mean 0 and standard deviation 1 
leaves alone columns with no deviation""" 
means, stdevs = scale(data matrix) 


def rescaled(i, j): 
if stdevs[j] > 0: 
return (data_matrix[i][j] - means[j]) / stdevs[j] 
else: 
return data_matrix[i][j] 


Num_rows, Num_cols = shape(data_matrix) 
return make_matrix(num_rows, num_cols, rescaled) 


一 如 既往 地 ， 你 需要 运用 你 的 判断 力 。 如 有 果 你 拿 到 一 个 由 身高 和 体重 组 成 的 巨大 的 数据 
集 ， 需 要 将 其 过 滤 为 仅 由 身高 在 69.5 英寸 至 70.5 英寸 之 间 的 人 组 成 。 很 有 可 能 (取决 于 
你 希望 回答 的 问题 ) 剩余 的 变 差 仅 仅 是 噪声 (noise)， 但 你 也 许 并 不 希望 将 其 标准 差 与 其 
他 维度 的 标准 差 等 而 视 之 。 














10.5 ” 降 维 


有 时候 ， 数 据 的 “真实 ”( 或 有 用 的 ) 维度 与 我 们 掌握 的 数据 维度 并 不 相符 。 比 如 ， 考 虑 
图 10-5 中 所 示 的 数据 。 
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图 10-5: 坐标 轴 “ 错 误 ” 的 数据 
数据 的 大 部 分 变 差 看 起 来 像 是 沿 着 单个 维度 分 布 的 ， 既 不 与 x 轴 对 应 ， 也 不 与 y 轴 对 应 。 


当 这 种 情形 发 生 时 ， 我 们 可 以 使 用 一 种 叫 作 主 成 分 分 析 (principal component analysis，PCA) 
的 技术 从 数据 中 提取 出 一 个 或 多 个 维度 ， 以 捕获 数据 中 尽 可 能 多 的 变 差 。 





实际 上 ， 这 样 的 技术 不 适用 于 低 维 数据 集 。 降 维 多 用 于 数据 集 的 维 数 很 高 的 
情形 ， 你 可 以 通过 一 个 小 子 集 来 抓 住 数据 集 本 身 的 大 部 分 变 差 。 不 过 ， 这 种 
情况 很 复杂 ， 绝 非 一 两 章 能 讲 得 清 。 


























首先 ， 我 们 需要 将 数据 转换 成 为 每 个 维度 均值 为 零 的 形式 : 


def de_mean_matrix(A) : 
"""returns the result of subtracting from every value in A the mean 
value of its column. the resulting matrix has mean 0 in every column""”" 
nr, nc = shape(A) 
column_means, _ = scale(A) 
return make_matrix(nr, nc, Lambda i, j: A[i][j] - column_means[j]) 


(如 果 不 这 样 做 ， 应 用 这 种 技术 的 结果 可 能 就 只 是 确定 数据 的 均值 本 身 ， 而 非 找 出 数据 中 
的 变 差 。) 
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图 10-6 展示 了 去 均值 后 的 示例 数据 。 
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图 10-6: 去 均值 后 的 数据 
现在 ， 已 有 一 个 去 均值 的 怎 阵 X， 我 们 想 铝 ， 最 能 抓 住 数据 最 大 变 差 的 方向 是 什么 ? 


具体 来 说 ， 给 定 一 个 方向 gd (一 个 绝对 值 为 1 的 向 量 )， 和 矩阵 的 每 行 x 在 方向 a 的 扩展 是 点 
积 dot(x，d)。 并 且 如 果 将 每 个 非 零 向 量 w 的 绝对 值 大 小 调整 为 1， 则 它们 每 个 都 决定 了 
一 个 方向 : 




















def direction(w): 
mag = magnitude(w) 
return [w_i / mag for w_i in w] 


因此 ， 已 知 一 个 非 零 向 量 w， 我 们 可 以 计算 w 方 向 上 的 方差 : 
def directional_variance_i(x_i, w): 


"""the variance of the row x_i in the direction determined by w 
return dot(x i, direction(w)) ** 2 


UA 


def directional_variance(X, w): 
"""the variance of the data in the direction determined w 
return sum(directional_variance i(x_i, w) 
for x_i in X) 


下 下 下 
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我 们 可 以 找 出 使 方差 最 大 的 那个 方向 。 只 要 得 到 梯度 函数 ， 我 们 就 可 以 通过 梯度 下 降 法 计 
算出 来 : 


def directional_variance_gradient i(x_i, w): 
"""the contribution of row Xi to the gradient of 
the direction-w variance""”" 
projection length = dot(x_i, direction(w)) 
return [2 * projection length * x_ij for x_ij tn x_i] 


def directional_variance_gradient(X, w): 
return vector_sum(directional_variance_gradient_i(x_i,w) 
for x_i in xX) 


第 一 主 成 分 仅 是 使 函数 directional_variance 最 大 化 的 方向 : 
def first_principal_component(X): 


guess = [1 for _ in x[0]] 
unscaled maximizer = maximize_batch( 








partial(directional_variance, X), # 现在 是 w 的 一 个 函数 
partial(directional_variance_gradient, X)，# 现在 是 w 的 一 个 国 数 
guess) 


return direction(unscaled_maximizer) 
也 许 ， 你 也 有 可 能 使 用 随机 梯度 下 降 方法 : 


# 这 里 没有 "y" ,所 以 我 们 仅仅 是 传递 一 个 Nones 的 向 量 
# 和 忽略 这 个 输入 的 函数 
def first_principal_component_sgd(X): 
guess = [1 for _ in Xx[0]] 
unscaled maximizer = maximize_stochastic( 
Lambda x, _, Ww: directional_variance_i(x, w), 
lambda x, _, Ww: directional variance_gradient i(x, w), 
X， 
[None for _ in X]， # 假 的 "y" 
guess) 
return direction(unscaled maximizer) 


对 去 均值 的 数据 集 ， 计 算 结果 返回 了 方向 [9.924，9.383] ， 这 个 方向 看 起 来 捕获 了 数据 变 
动 的 主要 方向 轴 (图 10-7)。 
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10-7: 第 一 主 成 分 
一 旦 我 们 找到 了 第 一 主 成 分 的 方向 ， 就 可 以 将 数据 在 这 个 方向 上 投影 得 到 这 个 成 分 的 值 : 





def project(v, w): 
"""return the projection of v onto the direction w 
projection length = dot(v, w) 
return scalar_multiply(projection_length, w) 


mm 


如 有 果 还 想得到 其 他 的 成 分 ， 就 要 先 从 数据 中 移 除 投影 : 


def remove_projection_from vector(v, w): 
"""projects v onto w and subtracts the result from v 
return vector_subtract(v, project(v, w)) 


mm 


def remove_projection(X, w): 
"""for each row of X 
projects the row onto w, and subtracts the result from the row 
return [remove_projection from vector(x_i, w) for x_i in X] 


mm 


因为 这 个 例子 中 的 数据 集 仅 仅 设 定 为 二 维 ， 当 移 除 第 一 主 成 分 之 后 ， 剩 下 的 实际 上 就 是 一 
个 一 维 的 成 分 了 (图 10-8) 。 
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图 10-8: 移 除 第 一 主 成 分 之 后 的 数据 


在 这 点 上 ， 我 们 可 以 通过 对 remove_projection 的 结果 重复 这 个 过 程 来 找到 其 他 的 主 成 分 
(图 10-9)。 


在 更 高 维 的 数据 集中 ， 我 们 可 以 通过 友 代 找到 我 们 所 需 的 任意 数目 的 主 成 分 : 


def principal_component_analysis(X, Num_components): 
components = [] 
for _ in range(num_components): 
component = first_principal_component(X) 
components .append(component) 
X = remove_projection(X, component) 


return components 
然后 再 将 原 数 据 转 换 为 由 主 成 分 生成 的 低 维 空间 中 的 点 : 


def transform vector(v, components): 
return [dot(v, w) for w in components] 


def transform(X, components): 
return [transform vector(x_i, components) for x_i in X] 





这 种 技术 很 有 价值 ， 原 因 有 以 下 几 点 。 首 先 ， 它 可 以 通过 清除 噪声 维度 和 整合 高 度 相 关 的 
维度 来 帮助 我 们 清理 数据 。 


























—40 一 30 一 20 一 10 0 10 20 30 











图 10-9: 前 两 个 主 成 分 


第 二 ， 在 提取 出 数据 的 低 维 代表 后 ， 我 们 就 可 以 运用 一 系列 并 不 太 适 用 于 高 维 数据 的 技 
术 。 我 们 可 以 在 本 书 的 很 多 地 方 看 到 运用 这 种 技术 的 例子 


同时 ， 它 既 可 以 帮助 你 建立 更 棒 的 模型 ， 又 会 使 你 的 模型 更 难 理解 。 很 容易 理解 诸如 “ 工 
作 年 限 每 增加 一 年 ， 平 均 工资 会 增加 1 万 美元 ”这 样 的 结论 。 但 诸如 “第 三 主 成 分 每 增加 
0.1， 平 均 工资 就 会 增加 1 万 美元 ”这 样 的 结论 就 很 难 理解 了 。 


10.6 ”延伸 学 习 


。 正如 我 们 在 第 9 章 末 所 提 到 的 ,pandas (http://pandas.pydata.org/) 很 可 能 是 Python 清理 、 
整理 、 处 理 和 利用 数据 的 主要 工具 。 本 章 中 所 有 自己 动手 创建 的 范例 都 可 以 通过 pandas 
更 简单 地 完成 。Python for Data Analysis (O’Reilly) 大 概 是 学 习 pandas 的 最 好 途径 。 

。 scikit-learn 有 多 种 多 样 的 矩阵 分 解 国 数 (http://scikit-learn.org/stable/modules/classes. 
html#module-sklearn.decomposition) ， 包 括 PCA。 
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第 11 章 


机 器 学 习 





耳 提 面 命 诚 可 贵 ， 求 知 若 渴 价 更 高 。 





温 斯 顿 . 下 吉尔 


在 很 多 人 有 眼 里 ， 数 据 科 学 几乎 就 是 机 颖 学 习 ， 而 数据 科学 家 每 天 做 的 事 就 是 建立 、 训 练 和 
调整 机 器 学 习 模型 〈 而 且 ， 这 些 人 当中 有 很 大 一 部 分 并 不 真正 知道 机 器 学 习 是 什么 )。 事 
实 上 ， 数 据 科学 的 主要 内 容 是 把 商业 问题 转换 为 数据 问题 ， 然 后 收集 数据 、 理 解数 据 、 清 
理 数据 、 整 理 数据 格式 ， 而 后 才 轮 到 机 器 学 习 这 一 后 续 工 作 。 尽 管 如 此 ， 机 器 学 习 也 是 一 
种 有 趣 且 必要 的 后 续 工 作 ， 为 了 做 好 数据 科学 工作 ， 你 很 有 必要 学 习 它 。 


11.1 建 模 
在 讨论 机 器 学 习 之 前 ， 我 们 需要 谈 谈 模型 (model)。 


什么 是 模型 ? 它 实际 上 是 针对 存在 于 不 同 变量 之 间 的 数学 (或 概率 ) 联系 的 一 种 规范 。 














比如 ， 如 果 你 想 为 你 的 社交 网 站 融资 ， 可 以 建立 一 个 商业 模型 (大 多 数 情况 下 建立 在 一 个 
工作 表 里 )， 模 型 的 输入 是 诸如 “用 户 数 "“ 每 位 用 户 的 广告 收入 ”“ 雇 员 数 ”之 类 的 变量 ， 
输出 是 接 下 来 几 年 的 年 度 利 润 。 某 本 就 调 指南 涉及 的 模型 是 输入 “吃饭 的 人 数 ” 和 “饥饿 
的 程度 ”来 量化 所 需要 的 材料 。 如 果 你 在 电视 上 看 过 扑克 比赛 ， 就 会 知道 选手 们 通过 一 个 
记 牌 的 模型 来 实时 地 估计 每 位 玩家 的 “获胜 概率 "， 这 个 模型 考虑 了 已 经 出 的 牌 和 还 在 牌 
桌 上 的 牌 的 分 布 。 





商业 模型 很 可 能 是 建立 在 简单 的 数学 联系 上 : 利润 是 收入 减 去 支出 ， 收 入 是 平均 价格 乘 以 
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单位 销售 量 ， 诸 如 此 类 。 菜 谱 模 型 则 可 能 基于 反复 试验 之 上 一 一 某 人 走 进 厨房 ， 演 试 不 同 
的 原料 组 合 ， 直 到 发 现 自己 喜欢 的 口味 。 扑 克 模 型 基于 概率 论 、 扑 克 规 则 和 某 些 关于 处 理 
牌 的 随机 过 程 的 合理 假设 。 


11.2 ”什么 是 机 器 学 习 


关于 什么 是 机 器 学 习 ， 每 个 人 都 有 自己 确切 的 定义 。 在 这 里 ， 我 们 使 用 的 定义 是 创建 并 使 
用 那些 由 学 习 数 据 而 得 出 的 模型 。 在 其 他 语 境 中 ， 这 也 可 以 叫 作 预 测 建 模 或 者 数据 挖 据 ， 
但 是 我 们 选择 使 用 机 器 学 习 这 个 术语 。 一 般 来 说 ， 我 们 的 目标 是 用 已 存在 的 数据 来 开发 可 
用 来 对 新 数据 预测 多 种 可 能 结果 的 模型 ， 比 如 : 


。 预测 一 封 邮件 是 否 是 垃圾 邮件 

。 预测 一 笔 信用 卡 交 易 是 否 是 欺诈 行为 
。 预测 哪 种 广告 最 有 可 能 被 购物 者 点 击 
。 预测 哪 支 橄 槛 球 队 会 赢得 超级 杯 大 赛 


























下 面 我 们 会 看 到 有 监督 的 模型 (其 中 的 数据 标注 有 正确 答案 ， 可 供 学 习 ) 和 无 监督 的 模型 
(没有 标注 )。 还 有 一 些 其 他 类 型 的 模型 ,我们 不 会 在 本 书 中 进行 讨论 ， 如 半 监 督 的 模型 
(其 中 有 一 部 分 数据 带 有 标注 ) 和 在 线 的 模型 (模型 需要 根据 新 加 入 的 数据 做 持续 调整 )。 


现在 ， 项 至 在 最 简单 的 情况 下 都 有 一 整套 模型 来 描述 我 们 感 兴趣 的 联系 。 大 多 数 情况 下 我 
们 会 自己 选择 参数 化 的 模型 族 ， 然 后 使 用 数据 来 学 习 从 某 种 程度 上 进行 优化 了 的 参数 。 























例如 ， 我 们 假设 一 个 人 的 身高 (大致 上 ) 是 他 体重 的 线性 函数 ， 然 后 用 数据 来 学 习 这 个 线 
性 函数 。 或 者 ， 我 们 也 可 以 假设 决策 树 是 一 种 用 来 诊断 患者 疾病 的 好 方法 ， 然 后 使 用 数据 
来 学 习 一 颗 “ 最 优 ” 的 树 。 本 书 剩余 部 分 会 罕 插 讲述 可 供 我 们 学 习 的 不 同 的 模型 族 。 





但 在 此 之 前 ,我 们 需要 更 好 地 理解 机 器 学 习 的 基础 。 本 章 剩余 部 分 将 探讨 一 些 机 器 学 习 的 
基本 概念 ， 随 后 才 会 讨论 到 模型 本 身 。 


11.3 ”过 拟 合 和 欠 拟 合 


在 机 器 学 习 中 ， 一 种 常见 的 困境 是 过 拟 合 (overfitting) 指 一 个 在 训练 数据 上 表现 良 
好 ， 但 对 任何 新 数据 的 泛 化 能 力 却 很 差 的 模型 。 这 可 能 牵扯 到 对 数据 中 噪声 的 学 习 ， 也 可 
能 涉及 学 习 识 别 特别 的 输入 ， 而 不 是 对 可 以 得 到 期 望 的 输出 进行 准确 预测 的 任何 因素 。 


























害 的 情况 是 大 拟 合 (underfitting)， 它 产生 的 模型 其 至 在 训练 数据 上 都 没有 好 的 表 
通常 这 暗示 你 模型 不 够 好 而 要 继续 寻找 改进 的 模型 。 
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不 同 阶 数 的 最 佳 拟 合 多 项 式 














11-1: 过 拟 合 和 欠 拟 合 


在 图 11-1 中 ， 我 对 一 组 简单 的 数据 拟 合 了 3 种 多 项 式 〈 别 担心 这 是 怎么 做 到 的 ， 我 们 会 在 
后 面 的 章节 中 介绍 ) 。 


水 平 线 显 示 了 最 佳 拟 合 阶 数 为 0 (也 就 是 常数 ) 的 多 项 式 ， 它 对 训练 数据 来 说 存在 严重 的 
大 拟 会。 最 佳 拟 合 的 阶 数 为 9 (也 就 是 有 10 个 参数 ) 的 多 项 式 精确 地 穿 过 训练 数据 的 每 个 
点 ， 但 这 是 严重 过 拟 合 的 。 如 果 我 们 能 取 到 更 多 的 一 些 点 ， 这 个 多 项 式 很 有 可 能 会 偏离 它 
们 很 多 。 阶 数 为 1 的 线 把 握 了 很 好 的 平衡 一 一 它 和 每 个 点 都 很 接近 ， 并 且 (如 果 这 些 数据 
是 有 代表 性 的 ) 它 也 会 和 新 的 数据 点 很 接近 。 


很 明显 ， 太 复杂 的 模型 会 导致 过 拟 合 ， 并 且 在 训练 数据 集 之 外 不 能 很 好 地 泛 化 。 所 以 ， 我 
们 该 如 何 确 保 我 们 的 模型 不 会 太 复 杂 呢 ?最 基本 的 方法 包括 使 用 不 同 的 数据 来 训练 和 测试 
模型 。 


最 简单 的 做 法 是 划分 数据 集 ， 使 得 (比如 说 ) 三 分 之 二 的 数据 用 来 训练 模型 ， 之 后 用 剩余 
的 三 分 之 一 来 衡量 模型 的 表现 : 
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def spLit_data(data，prob) : 
"""split data into fractions [prob, 1 - prob1 
results = [], [] 
for row in data: 
results[0 if random.random() < prob else 1].append(row) 
return results 





通常 我 们 会 有 一 个 作为 输入 变量 的 矩阵 x 和 一 个 作为 输出 变量 的 向 量 y。 这 种 情况 下 ， 我 
们 要 确保 无 论 在 训练 数据 还 是 测试 数据 中 ， 都 要 把 对 应 的 值 放 在 一 起 : 


def train_test_spLit(x，y，test_pct) : 


data = zip(x, y) # 成 对 的 对 应 值 
train, test = split data(data, 1 - test_pct) # 划分 这 个 成 对 的 数据 集 
x_train, y_train = zip(*train) # 魔法 般 的 解压 技巧 


x_test, y_test = zip(*test) 
return x_train, x_test, y_train, y_test 


这 样 你 就 可 以 做 一 些 类 似 下 面 这 样 的 处 理 : 


model = SomeKindOofModel() 

x_train, x_test, y_train, y_test = train_ test_ split(xs, ys, 0.33) 
model.train(x_train, y_train) 

performance = model.test(x_test, y_test) 








如 果 模 型 对 训练 数据 是 过 拟 合 的 ， 那 么 它 在 (完全 划分 开 的 ) 测试 数据 集 上 会 有 可 能 真 的 
表现 得 很 不 好 ， 换 句 话说， 如果 它 在 测试 数据 上 表现 和 良好， 那么 你 可 以 肯定 地 说 它 拟 合 良 
好 而 非 过 拟 合 。 

然而 在 有 些 情况 下 这 也 可 能 会 出 错 。 

第 一 种 情况 是 训练 和 测试 数据 集中 的 共有 模式 不 能 泛 化 到 大 型 数据 集 上 。 

比如 ， 假 设 数据 集 包 括 用 户 活跃 度 ， 每 位 用 户 每 周一 列 。 在 此 情形 下 ， 大 多 数 用 户 会 出 现 
在 训练 数据 和 测试 数据 中 ， 而 且 有 些 模型 可 能 会 学 习 识 别 用 户 而 不 是 去 发 现 涉及 属性 的 联 
系 。 这 不 是 个 太 大 的 问题 ， 尽 管 我 曾经 遇 到 过 一 次 。 

一 个 更 大 的 问题 是 ， 如 果 你 划分 训练 集 和 测试 集 的 目的 不 仅仅 是 为 了 判断 模型 ， 也 是 为 了 
在 许多 模型 中 进行 选择 。 此 时 ， 尽 管 不 是 所 有 的 模型 都 是 过 拟 合 的 ， 但 “选择 在 测试 集 上 
表现 最 好 的 模型 ”是 一 种 元 训练 (meta-training) ， 会 把 测试 集 当 作 另 一 个 训练 集 而 运作 。 
(当然 ， 在 测试 集 上 有 最 好 表现 的 模型 会 在 测试 集 上 有 持续 的 好 表现 。) 

在 这 种 情况 下 ， 你 应 该 把 数据 划分 为 三 部 分 : 一 个 用 来 建立 模型 的 训练 集 ， 一 个 为 在 训练 
好 的 模型 上 进行 选择 的 验证 集 ， 一 个 用 来 判断 最 终 的 模型 的 测试 集 。 














| 
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11.4 正确 性 


当 我 不 做 数据 科学 的 时 候 ， 我 会 涉猎 医疗 研究 。 在 业余 时 间 ， 我 做 了 一 个 低 成 本 、 无 害 的 
新 生 儿 测试 一 一 准确 性 高 达 98% 一 一 测试 新 生 儿 是 否 会 得 白血病 。 我 的 律师 确信 我 是 有 专 
利 权 的 。 所 以 我 在 这 里 把 细节 分 享 一 下 : 仅仅 当 婴 儿 起 名 为 Luke 时 预测 会 得 白血病 ( 因 
为 这 个 名 字 听 起 来 像 白血病 的 英文 leukemia)。 


如 我 们 下 面 所 见 ， 这 种 测试 确实 有 超过 98% 的 准确 性 。 然 而 ， 这 是 一 个 极为 思春 的 测试 ， 
也 很 好 地 解释 了 我 们 为 什么 不 能 仅 用 “准确 率 ” 这 个 概念 来 测量 一 个 模型 的 好 坏 。 




















假设 建立 一 个 模型 来 做 三 元 的 判断 ， 比 如 : 一 封 邮件 是 否 是 垃圾 邮件 ? 我们 是 否 该 聘用 这 
位 应 聘 者 ? 这 个 乘客 是 汪 藏 的 已 怖 分 子 吗 ? 


给 定 一 个 标签 数据 集 和 一 个 预测 模型 ， 每 个 数据 集 都 会 落 在 下 面 其 中 一 个 属性 中 。 

















性 :“ 这 封 邮件 是 垃圾 邮件 ,我们 做 了 正确 的 预测 。” 

性 (又 称 第 1 类 错误 ) :“ 这 封 邮件 不 是 垃圾 邮件 ， 但 是 我 们 预测 它 是 垃圾 邮件 。 
阴性 (又 称 第 2 类 错误 ) :“ 这 封 邮 件 是 垃圾 邮件 ， 但 是 我 们 预测 它 不 是 垃圾 邮件 。 
阴性 :“ 这 封 邮件 不 是 垃圾 邮件 ， 而 且 我 们 正确 地 预测 了 它 不 是 垃圾 邮件 。 


真 阳 











我 们 常用 混 消 移 阵 (confusion matrix) 中 的 计数 来 表示 上 面 的 四 种 情况 








垃圾 邮件 。 ” 非 垃 圾 邮件 
预测 “是 垃圾 邮件 ” 真 阳性 假 阳 性 
预测 “ 非 垃圾 邮件 ” 假 阴性 真 阴 性 








让 我 们 来 看 看 我 的 白血病 测试 是 如 何 符合 这 种 框架 的 。 现 如 今 ， 大 约 每 1000 名 婴儿 中 有 
5 人 会 起 名 叫 Luke ee ii si is 汪 g 
每 人 一 生 中 给 患 白 血 病 的 概率 大 约 是 1.4%， 或 者 说 每 1000 人 中 会 有 14 人 患 病 (http:// 


seer.cancer.gov/statfacts/html/leuks.html )e 





如 果 我 们 相信 这 两 个 因素 是 独立 的 ， 然 后 对 1 百 万 人 运用 我 的 “Luke 是 白血病 患者 ” 测 
试 ， 预计 能 看 到 这 样 的 混淆 矩阵 : 








白血病 非 白 血 病 总 计 





Luke 70 4930 5000 
非 Luke 13 930 981 070 995 000 
总 计 14 000 986 000 1 000 000 


然后 我 们 由 此 计算 关于 模型 表现 的 多 个 统计 量 。 例 如 ， 准 确 率 (accuracy) 定义 为 正确 预 
测 的 比例 : 
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def accuracy(tp, fp, fn, tn): 
correct = tp + tn 
totaL = tp + fp + fn + tn 
return Correct / total 
print accuracy(70, 4930, 13930, 981070) # 0.98114 
看 起 来 这 个 数字 令 人 印象 十 分 深刻 ， 但 很 明显 这 并 不 是 一 个 好 的 测试 ， 这 意味 着 我 们 不 能 
对 原始 的 准确 率 有 过 多 的 信心 。 
更 常见 的 做 法 是 把 查 准 率 (precision) 和 查 全 举 (recall) 结合 起 来 看 待 。 查 准 率 度量 我 的 
模型 所 做 的 关于 “阳性 ”的 预测 有 多 准确 : 


def precision(tp, fp, fn, tn): 
return tp / (tp + fp) 


print precision(70, 4930, 13930, 981070) # 0.014 


查 全 率 度量 我 的 模型 所 识别 的 “阳性 ”的 比例 : 





def recall(tp, fp, fn, tn): 
return tp / (tp + fn) 


print recall(70, 4930, 13930, 981070) # 0.005 
这 两 个 结果 都 低 得 可 怕 ， 反 映 出 这 是 一 个 很 不 好 的 模型 。 
有 时 候 可 以 把 查 准 率 和 查 全 率 组 合成 Fl 得 分 (Fl score)， 它 是 这 样 定义 的 : 





def f1_score(tp, fp, fn, tn): 
p = precision(tp, fp, fn, tn) 
r = recall(tp, fp, fn, tn) 


return2*p*r/(p+r) 
它 是 查 准 率 和 查 全 率 的 调和 平均 值 (https:/en.wikipedia.org/wikiHarmonic_mean) ， 因 此 必 
然 会 落 在 两 者 之 间 。 


模型 的 选择 通常 是 查 准 率 和 查 全 率 之 间 的 权衡 。 一 个 模型 如 果 在 信心 不 足 的 情况 下 预测 
“是 ”， 那 么 它 的 查 全 率 可 能 会 较 高 ， 但 查 准 率 却 较 低 ， 而 如 果 一 个 模型 在 信心 十 足 的 情况 
下 预测 “是 ， 那 么 它 的 查 全 率 可 能 会 较 低 ， 但 查 准 率 却 较 高 。 








另 一 方面 ， 也 可 以 把 这 当 作假 阳性 和 假 阴性 乙 间 的 权衡 。 预 测 的 “是 ” 太 多 通常 会 给 出 很 
多 的 假 阳 性 。 预 测 的 “ 否 ” 太 多 通常 会 给 出 很 多 的 假 阴性 。 

假设 对 白血病 来 说 有 10 个 风险 因素 ， 你 的 身体 具备 的 因素 越 多 ， 就 越 容 易 患 上 白血病 。 
这 种 情况 下 ， 你 可 以 假设 进行 一 系列 连续 性 的 测试 :“ 至 少 有 一 个 风险 因素 预测 会 得 白 血 
病 ”“ 至 少 有 两 个 风险 因素 预测 会 得 白血病 ”诸如 此 类 。 随 着 临界 值 的 不 断 提高 ， 测 试 的 
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查 准 率 也 提高 了 (因为 具有 更 多 风险 因素 的 人 更 容易 患 上 白血病 )， 并 且 降 低 了 测试 的 查 
全 率 (因为 能 够 达到 临界 值 的 最 终 患 病 者 越 来 越 少 )。 对 于 类 似 这 样 的 情况 ， 选 择 合适 的 
临界 值 实际 上 就 是 做 出 正确 的 权衡 。 


11.5 ” 偏 倚 -方差 权衡 


思考 过 拟 合 问题 的 另 一 种 角度 是 把 它 作 为 偏 傈 和 方差 之 间 的 权衡 。 偏 倚 和 方差 这 两 个 名 词 
是 用 来 度量 在 (来 自 同一 个 大 型 总 体 的 ) 不 同 的 训练 数据 集 上 多 次 重复 训练 模型 的 情况 。 


比如 ， 在 11.3 节 “ 过 拟 合 和 欠 拟 合 ” 中 提 到 的 0 阶 模型 对 〈 取 自 同一 总 体 的 ) 任何 可 能 的 
训练 集 都 会 造成 大 量 的 错误 。 这 表明 该 模型 偏 倚 较 高 。 然 而 任何 两 个 随机 选择 的 训练 集会 
给 出 很 相似 的 模型 (因为 任何 两 个 随机 选择 的 训练 集 都 应 该 有 大 致 相似 的 平均 值 )。 所 以 
我 们 称 这 个 模型 有 低 方 差 。 高 偏 倚 和 低 方 差 典 型 地 对 应 着 欠 拟 合 。 


另 一 方面 ，9 阶 模型 完美 地 拟 合 训练 集 ， 它 具有 很 低 的 偏 倚 和 很 高 的 方差 (因为 任何 两 个 
训练 集 都 可 能 给 出 非常 不 同 的 模型 形式 )。 这 种 情况 对 应 过 拟 合 。 

如 果 你 的 模型 有 高 偏 倚 (这 意味 着 即使 在 训练 数据 上 也 表现 不 好 )， 可 以 尝试 加 入 更 多 的 
特征 。 从 0 阶 模型 到 1 阶 模型 就 是 一 个 很 大 的 改进 。 


如 果 你 的 模型 有 高 方差 ， 那 可 以 类 似 地 移 除 特征 ， 另 一 种 解决 方法 是 〈 如 果 可 能 的 话 ) 获 
得 更 多 的 数据 。 









































NN 个 点 的 最 自 





E 拟 合 的 9 维 多 项 式 
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11-2: 利用 更 多 数据 降低 方差 





136 | 第 11 章 





在 图 11-2 中 ， 我 们 对 不 同 大 小 的 样本 拟 合 了 9 阶 多 项 式 。 如 我 们 前 面 所 见 ， 基 于 10 个 点 
拟 合 的 模型 是 一 塌 糊 涂 的 。 如 果 在 100 个 数据 点 上 训练 ， 就 会 大 大 减少 过 拟 合 的 问题 。 如 
果 在 1000 个 点 上 训练 ， 看 起 来 就 像 是 1 阶 模型 。 


在 模型 复杂 度 不 变 的 前 提 下 ， 你 有 越 多 的 数据 ， 就 越 难过 拟 合 。 


另 一 方面 ， 更 多 的 数据 对 偏 倚 并 不 会 有 帮助 。 如 有 果 模型 不 能 使 用 足够 多 的 特征 来 捕捉 数据 
的 正则 性 ， 那 么 再 多 的 数据 也 不 会 有 帮助 。 


11.6 ”特征 提取 和 选择 


我 们 之 前 提 到 ， 如 果 数 据 没 有 足够 的 特征 ， 模 型 很 可 能 就 会 欠 拟 合 。 但 如 果 数 据 有 太 多 的 
特征 ， 模 型 又 容易 过 拟 合 。 那 什么 是 特征 呢 ， 它 们 又 从 何 而 来 ? 


















































特征 (feature) 是 指 提供 给 模型 的 任何 输入 。 在 最 简单 的 情况 下 ， 特 征 是 直接 提供 给 你 的 。 
如 有 果 你 想 基于 某 人 的 工作 年 限 来 预测 其 薪水 ， 那 工作 年 限 就 是 你 所 拥有 的 唯一 的 特征 。 


(尽管 如 此 ， 如 同 我 们 在 11.3 节 “ 过 拟 合 和 欠 拟 合 ”中 所 见 的 ， 如 果 可 以 帮助 你 建立 更 好 
的 模型 ， 应 该 加 入 工作 年 限 的 平方 项 和 立方 项 。) 


当 数 据 变 得 更 复杂 时 ， 事 情 变 得 有 趣 起 来 。 设 想 我 们 尝试 建立 一 个 垃圾 邮件 过 滤器 来 预测 
一 封 邮件 是 否 是 垃圾 邮件 。 大 多 数 模型 不 知道 如 何 处 理 原 始 邮件 ， 邮 件 就 是 一 组 文本 。 你 
需要 提取 特征 ， 比 如 : 

。 邮件 中 是 否 包 含 单词 “Viagra”; 

。 字母 d 出现 了 多 少 次 

。 寄 件 人 的 域名 是 什么 。 

第 一 个 问题 的 特征 就 是 简单 的 是 或 否 ， 可 以 被 典型 地 编码 为 1 或 0。 第 二 个 问题 的 特征 是 
个 数字 。 第 三 个 问题 的 特征 是 从 一 个 离散 的 选项 集中 做 出 的 选择 。 
多 数 情况 下 ， 我 们 会 从 符合 这 三 种 特征 的 数据 中 提取 特征 。 此 外 ， 特 征 的 类 型 限制 了 我 们 
所 用 模型 的 类 型 。 
第 13 章 中 使 用 的 朴素 贝 叶 斯 分 类 器 适合 “是 或 否 ” 这 样 的 二 元 特征 ， 就 像 上 面 列 出 的 第 
一 种 情况 一 样 。 

第 14 章 和 第 16 章 将 要 提 到 的 回归 模型 要 求 有 数值 型 的 特征 〈 它 可 能 会 包括 0 或 1 这 样 的 
虚拟 变量 )。 

第 17 章 讲 到 的 决策 树 ， 会 涉及 数值 或 属性 数据 。 
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尽管 在 垃圾 邮件 过 滤器 的 例子 中 我 们 探索 了 创建 特征 的 方法 ， 但 有 时 我 们 还 需要 设法 移 除 
特征 。 


比如 ， 输 入 可 能 是 包含 几 百 个 数 的 向 量 。 根 据 有 具体 情况 ， 最 好 是 取出 一 些 维度 ， 缩 减 到 只 
剩 少量 重要 的 维度 ( 见 10.5 市 “ 降 维 ”)， 只 使 用 这 些 少数 的 特征 ， 或 者 最 好 采用 一 些 技术 
(比如 正则 化 技术 ， 见 15.8 节 “ 正 则 化 ") 对 应 用 过 多 特征 的 模型 进行 惩罚 。 








我 们 该 如 何 选择 特征 呢 ? 这 需要 经 验 和 专业 知识 的 结合 。 如 果 你 收 到 了 大 量 的 邮件 ， 可 能 
会 对 某 个 特定 的 词 比较 敏感 ， 这 个 词 会 成 为 垃圾 邮件 的 好 指标 。 同 时 ， 你 也 可 能 会 觉得 ， 
字母 d 的 个 数 不 像 是 判断 垃圾 邮件 的 好 指标 。 但 通常 来 说 ， 你 需要 尝试 不 同 的 特征 ， 这 也 
不 失 为 一 种 乐趣 。 


11.7 ”延伸 学 习 


。 继续 读 下 去 ,后面 儿 章 讨论 了 不 同 种 类 的 机 器 学 习 模 型 。 

。 Coursera 的 机 器 学 习 课 程 (https:/www.coursera.org/learn/machine-learning) 是 原创 的 
MOOC， 是 深入 理解 机 器 学 习 基 础 知识 的 好 途径 。 加 州 理工 学 院 的 机 器 学 习 MOOC 
(https://work.caltech.edu/telecourse.html) 也 是 很 好 的 资源 。 

。 The Elements of Statistical Learning 是 一 本 相当 权威 的 教材 ,可 以 从 网 络 上 免费 下 载 (http:// 
statweb.stanford.edu/~tibs/ElemStatLearn/)。 但 是 要 注意 ， 它 是 非常 数学 化 的 。 
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第 12 章 


k 近 久 法 





一 一 皮特 罗 . 雷 提 诺 


假设 你 打算 预测 我 会 在 下 次 大 选 给 谁 投票 。 如 果 你 对 我 一 无 所 知 (但 是 你 有 数据 )， 一 个 
明智 的 方法 是 看 看 我 的 邻居 们 打算 怎么 投票 。 我 住 在 西雅图 市 中 心 ， 我 的 邻居 们 总 是 会 打 
算 投票 给 民主 党 的 候选 人 ， 这 说 明 “ 民 主 党 候选 人 ”有 可 能 是 我 的 投票 对 象 。 

现在 假设 你 对 我 的 了 解 不 仅 限 于 家 庭 住址 一 一 可 能 你 还 知道 我 的 年 龄 、 收 入 ， 以 及 有 几 
个 孩子 ， 等 等 。 参 照 我 的 行为 被 这 些 维度 影响 (或 刻画 ) 的 程度 ， 观 察 那些 在 这 些 维度 
上 最 接近 我 的 邻居 似乎 比 观察 我 所 有 的 邻居 会 得 到 更 好 的 预测 结果 。 这 就 是 最 近邻 分 类 


(nearset neighbors classification) 方法 背后 的 思想 。 


12.1 模型 

最 近邻 法 是 最 简单 的 预测 模型 之 一 ， 它 没有 多 少数 学 上 的 假设 ， 也 不 要 求 任何 复杂 的 处 
理 ， 它 所 要 求 的 仅仅 是 : 

。 某 种 距离 的 概念 

。 一 种 彼此 接近 的 点 具有 相似 性 质 的 假设 

本 书 中 讲 到 的 大 部 分 技术 是 把 数据 集 看 作 一 个 整体 ， 以 便 学 习 数 据 中 的 模式 。 相 比 之 下 ， 
最 近邻 法 却 非常 有 意 地 忽略 了 大 量 信息 ， 因 为 对 每 一 个 新 的 数据 点 进行 预测 只 依赖 于 少量 
最 接近 它 的 点 。 




















139 














而 且 ， 最 近邻 法 并 不 能 帮助 理解 你 所 观察 到 的 任意 现象 的 驱动 机 制 。 比 如 ， 基 于 我 邻居 的 
多 票 行为 来 预测 我 的 投票 并 不 能 告诉 你 我 为 什么 要 这 样 投票 ， 而 某 些 林 于 (比如 说 ) 我 的 
收入 和 婚姻 状况 来 预测 我 投票 行为 的 模型 很 可 能 会 示 我 投票 的 原因 
在 一 般 情 形 中 ， 我 们 有 一 些 数据 和 对 应 的 标签 集 。 这 些 标 签 可 能 记 作 真 或 假 ， 表 示 每 个 输 
入 是 否 满足 诸如 “是 否 是 垃圾 邮件 ”“ 是 否 有 毒 ” “是 否 值 得 观看 ”这 样 的 条 件 ; 或 者 它们 
示 属 性 ， 就 像 “G、PG、PG-13、R、PG-17” 这 样 的 电影 评分 ; 或 者 它们 可 能 是 总 
统 候选 人 的 名 字 ; 或 者 它们 可 能 是 最 受 欢迎 的 编程 语言 的 名 称 。 


在 我 们 的 例子 里 ， 数 据点 是 向 量 ， 这 意味 着 可 以 用 到 第 4 章 中 的 distance 函数 。 























比如 说 我 们 已 选 定 了 数字 大 的 值 为 3 或 5， 然 后 想 要 对 某 些 新 的 数据 点 分 类 时 ， 我 们 寻找 天 
个 已 标记 的 最 接近 它 的 点 ， 让 这 些 点 在 新 的 输出 上 投票 。 


为 此 ， 我 们 需要 一 个 函数 来 计算 投票 结果 。 一 个 可 能 的 函数 是 


def raw_majority_vote(labels): 
votes = Counter(labels) 
winner, _ = votes.most_ common(1)[0] 
return winner 


但 这 里 没有 智能 地 处 理 并 列 的 结果 。 比 如 ， 假 设 我 们 在 对 电影 评分 ， 且 5 个 最 接近 的 
被 评 为 G、G、PG、PG 和 R， ie 
几 种 选择 。 


。 随机 选择 其 中 一 个 获胜 者 。 
。 根据 距离 加 权 投 票 并 选择 加 权 的 获胜 者 。 
。 减少 大 值 直到 找到 唯一 的 获胜 者 。 


我 们 将 运用 第 三 种 方法 : 
































def majority_vote(labels): 
'""assumes that labels are ordered from nearest to farthest""”" 
vote_counts = Counter(labels) 
winner, winner_count = vote_counts.most_common(1)[0] 
Num_winners = len([count 
for count in vote_counts.values() 
if count == winner_count]) 


if num winners == 1: 

return winner # 唯一 的 获胜 者 ,返回 它 的 值 
else: 

return majority_vote(labels[:-1]) # 去 掉 最 远 元 素 , 再 次 尝试 


这 种 方法 最 终 是 管用 的 ， 因 为 在 最 坏 的 情况 下 ， 我 们 会 一 直 减 少 k 值 ， 直 到 只 剩 一 个 标 
签 ， 此 时 这 个 标签 就 是 获胜 者 。 
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使 用 这 个 函数 很 容易 创建 一 个 分 类 器 : 


def knn_classify(k, labeled_ points, new_point): 
"""each labeled point should be a pair (point, label)""" 


# 把 标记 好 的 点 按 从 最 近 到 最 远 的 顺序 排序 
by_distance = sorted(labeled_points, 
key=Lambda (point, _): distance(point, new_point)) 


# 寻找 k 个 最 近邻 的 标签 
k_nearest_labels = [label for _, label ;in by_distance[:k]] 


# 然后 让 它们 投票 
return majority_vote(k_nearest_ labels) 


让 我 们 看 看 这 是 怎么 起 作用 的 。 


12.2 案例 : 最 喜欢 的 编程 语言 


DataSciencester 第 一 次 用 户 调查 的 结果 回来 了 ， 我 们 从 中 找到 了 一 系列 大 城市 用 户 偏 爱 的 
编程 语言 : 


社 





# 每 一 条 记录 都 是 ([Longitude，Latitude]，favorite_Language) 的 形式 


cities = [([-122.3 ，47.53]， "Python")， # 西雅图 
([-96.85，32.85]，"Java")， # 奥斯汀 
([ =89;33, 43,13], "KR"Y, # 麦迪 还 
# …… 还 有 很 多 记录 


区 参与 部 门 的 副 总 想 知道 我 们 能 不 能 用 这 些 结果 来 预测 那些 我 们 疫 有 调查 到 的 地 方 最 喜 


欢 的 编程 语言 是 什么 。 





一 如 既往 地 ， 第 一 步 最 好 是 先 根 据 数据 作 图 (如 图 12-1 所 示 ) : 











# 键 是 语言 , 值 是 成 对 数据 (Longitudes，latitudes) 
plots = { Java" : ([], []), "Python™ : ([], []), "R" : ([], [])} 


# 我 们 希望 每 种 语言 都 能 有 不 同 的 记号 和 颜色 
markers = { "Java" : "0"，"Python"”: "s", "R" : "^" } 
colors = { njavar : Me "Python" : Mb 央 如 : "gg } 


for (longitude, latitude), language in cities: 
plots[language][0].append(longitude) 
pLots[Language][1].append(Latitude) 


# 对 每 种 语言 创建 一 个 散 点 序列 
for language, (x, y) in plots.iteritems(): 
plt.scatter(x, y, color=colors[language], marker=markers[language], 
label=language, zorder=10) 
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plot_state_borders(plt) # 假设 我 们 有 一 个 实现 这 一 步 的 函数 


plt. legend(loc=0) # 让 matpLotLib 选 择 一 个 位 置 
plt.axis([-130,-60,20,55]) ”# 设置 轴 


plt.title(" 最 受 欢 迎 的 编程 语言 " 
plt. show() 





最 受 欢迎 的 编程 语言 
器 最 受 欢迎 的 编程 


se Python 
4 RR 


eee java 





20 
一 130 一 120 ELIQ 一 100 =90 一 80 -70 一 60 








12-1: 最 受 欢迎 的 编程 语言 


你 可 能 注意 到 了 对 plot_state_borders() 的 调用 ， 这 是 一 个 没有 被 精确 定义 
的 函数 。 本 书 的 GitHub 页 面 (https://github.com/joelgrus/data-science-from- 
scratch) 上 有 这 个 函数 的 具体 实现 ,你 也 可 以 把 它 当 作 一 个 练习 题 来 自己 尝试 
解决 : 











(1) 在 网 络 上 搜索 各 州 边界 线 的 经 纬度 等 信息 ，; 
(2) 把 你 找到 的 任意 经 纬度 数据 转化 为 线段 [(long1, latD), (long2, lat2)] 的 列表 ， 
(3) 使 用 plt.plot() 画 出 这 些 线段 。 








既然 互相 邻近 的 地 区 看 起 来 偏爱 相同 的 语言 ， 那 么 上 近邻 法 作为 一 种 预测 模型 看 上 去 会 是 
种 合理 的 选择 。 
首先 ， 让 我 们 看 一 下 如 果 堂 试 利 用 邻居 城市 来 预测 每 个 城市 偏爱 的 语言 会 得 到 什么 结果 : 
# 试 试 多 个 不 同 的 k 值 


for k in [1, 3, 5, 7]: 
num_correct = 0 























for city in Cities : 
location, actual_language = city 
other_cities = [other_city 
for other_city in cities 
if other_city != city] 


predicted_Language = knn_classify(k, other_cities, location) 


if predicted_ language == actual_language: 
Num_correct += 1 


print k, "neighbor[s]:", Num_correct, "correct out of", len(cities) 





看 起 来 3- 近邻 的 表现 最 好 ，59% 的 时 间 都 能 给 出 正确 结果 : 


1 neighbor[s]: 40 correct out of 75 
3 neighbor[s]: 44 correct out of 75 
5 neighbor[s]: 41 correct out of 75 
7 neighbor[s]: 35 correct out of 75 


现在 可 以 看 出 在 每 个 最 近邻 体系 下 会 把 某 个 区 域 分 类 到 哪 种 语言 。 我 们 可 以 在 全 部 的 网 格 
点 上 进行 这 种 分 类 ， 然 后 参照 处 理 城市 分 类 的 方法 把 预测 结果 画 出 来 : 


























plots = { "Java" : ([], []), "Python™ : ([], [J]), "R" : ([], [])} 
k = 1 # 或 3, 或 5, 或 …… 


for longitude in range(-130, -60): 
for latitude in range(20, 55): 
predicted_ language = knn_classify(k, cities, [longitude, latitude]) 
plots[predicted language][0].append(longitude) 
plots[predicted language][1].append(latitude) 





例如 ， 图 12-2 显示 了 当 我 们 只 看 最 近 的 邻居 (f=1) 时 会 有 什么 结果 。 








1 近邻 的 编程 语言 
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12-2: 1- 近邻 的 编程 语言 


可 以 看 到 ， 从 一 种 语言 到 另 一 种 语言 有 许多 又 变 ， 它 们 之 间 的 边界 也 较为 锐 化 。 当 我 们 把 
邻居 数 增加 到 3 时 ， 能 看 到 各 种 语言 的 区 域 变 光滑 了 (图 12-3)。 














55 


3- 近 邻 的 编程 语言 
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图 12-3: 3- 近邻 的 编程 语言 


我 们 把 邻居 数 增加 到 5， 边 界 变 得 更 加 光滑 了 (图 12-4)。 


> 
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5- 近 邻 的 编程 语 计 
二 近邻 的 编程 





se Python 
a4a R 


eee java 


国 国 国 国 国人 从 从 从 从 公公 
国 国 国 国 国人 从 全 从 从 从 公公 
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一 130 一 120 =110 —100 -90 -80 -70 -60 





























10.4 市 “数据 调整 ”中 所 讲 的 那样 。 


12.3” 维 数 灾难 

在 更 高 的 维度 上 ,kk 近 邻 法 会 因为 “ 维 数 灾难 ”而 遇 到 有 麻烦， 其 根源 在 于 高 维 空间 过 于 巨 
大 。 高 维 空间 内 的 点 根本 不 会 表现 得 彼此 邻近 。 观 察 维 数 灾难 的 一 种 方法 是 在 一 个 高 维度 
的 d 维 空间 “单位 立方 体 ” 上 随机 地 生成 数据 点 对 ， 并 计算 它们 之 间 的 距离 。 

现在 ， 生 成 随机 点 应 该 是 老生 常 谈 了 : 


def random_point(dim): 
return [random.random() for 


写 一 个 函数 生成 距离 也 是 如 此 : 


in range(dim)] 


def random distances(dim, num_pairs): 
return [distance(random point(dim), random_point(dinm)) 
for _ in range(num pairs)] 





对 从 1 到 100 的 每 一 个 维度 ， 我 们 会 计算 10 000 个 距离 ， 并 使 用 它们 计算 每 个 维度 上 点 和 
点 之 间 的 平均 距离 和 最 小 距离 (图 12-5) : 














dimensions = range(1, 101) 


avg_distances 
min_distances 


= [] 
= [] 
random.seed(0) 
for dim in dimensions: 
distances = random_distances(dim，10000) “ # 10 000 个 随机 对 








avg_distances.append(mean(distances)) # 追踪 平均 值 
min_distances.append(min(distances)) # 追踪 最 小 值 
10 000 个 随机 距 
45 个 随机 距离 


一 平均 距离 
_ 最 小 距离 





0 20 40 60 80 100 
维度 的 个 数 











12-5: 维 数 的 灾难 


随 着 维度 数量 的 增加 ， 点 和 点 之 间 的 平均 距离 也 增加 了 。 但 更 麻烦 的 是 最 近 距 离 和 平均 距 
离 之 间 的 比例 (图 12-6) : 














min_avg_ratio = [min dist / avg_dist 
for min_dist, avg_dist in zip(min_distances, avg_distances)] 
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最 小 距离 /平均 距离 
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维度 的 个 数 











图 12-6: 维 数 的 另 一 个 灾难 


在 低 维 数据 集中 ， 最 邻近 的 点 的 距离 看 起 来 比 点 和 点 的 平均 距离 要 更 小 。 但 仅 当 两 个 点 在 
每 个 维度 上 都 邻近 时 ， 我 们 才 可 称 这 两 个 点 是 邻近 的 ， 而 且 每 个 增加 的 维度 一 一 即使 仅仅 
是 噪声 一 一 都 有 可 能 会 让 每 个 点 更 加 远离 其 他 的 点 。 当 有 许多 维度 时 ， 看 上 去 最 邻近 的 两 
个 点 的 距离 并 不 比 点 和 点 的 平均 距离 小 ， 这 说 明 两 个 点 邻近 并 不 特别 意味 着 什么 〈 数 据 中 
有 许多 结构 的 行为 使 其 看 起 来 像 是 在 更 低 的 维度 ) 。 














思 芳 这 个 问题 的 一 个 不 同 的 方法 涉及 更 高 维 空间 的 稀 玻 性 。 


如 果 从 0 到 1 之 间 随 机 取 50 个 数 ， 你 可 能 会 得 到 单位 区 间 内 的 一 个 非常 好 的 样本 (图 
1227 
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0.0 0.2 0.4 0.6 0.8 1.0 











12-7: 一 维 内 的 50 个 随机 点 
如 果 在 单位 正方 形 内 随机 取 50 个 点 ， 得 到 的 规模 会 更 小 〈 图 12-8) 。 
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12-8: 二 维 内 的 50 个 随机 点 
在 三 个 维度 中 的 随机 样本 会 变 得 更 稀 玻 〈 图 12-9)。 











matplotlib 不 能 很 好 地 画 出 4 维 的 图 形 ， 所 以 我 们 只 能 给 出 上 面 的 几 种 情形 ， 即 便 如 此 ， 
你 也 已 经 能 够 看 到 某 些 点 的 附近 因为 没有 邻近 的 点 而 存在 大 片 的 空白 空间 。 在 更 高 的 维度 
上 一 一 除非 你 能 以 指数 规模 得 到 更 多 的 数 一 一 大 片 空白 空间 代表 的 是 远离 你 想 用 在 预测 中 
的 所 有 的 点 的 区 域 。 


























因此 ， 如 果 你 打算 在 高 维 中 使 用 最 近邻 法 ， 不 妨 先 做 一 些 降 维 工作 。 
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图 12-9: 三 维 内 的 50 个 随机 点 


12.4 ”延伸 学 习 


scikit-learn 里 有 许多 最 近邻 模型 (http://scikit-learn.org/stable/modules/neighbors.html) 。 
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第 13 章 


朴 系 贝 叶 斯 算法 





心灵 朴素 多 为 巧 ， 头 脑 朴 素 却 成 氟 。 
一 一 阿 纳 托 尔 : 法 邹 士 


如 果 人 们 不 形成 关系 网 的 话 ， 社 交 网 络 就 不 会 有 太 大 的 用 途 。 因 此 ，DataSciencester 提供 
了 一 个 非常 流行 的 功能 ， 人 允许 会 员 之 间 相 互 发 送 邮件 。 虽 然 大 部 分 会 员 都 是 发 邮件 听 寒 问 
暖 的 恨 民 ， 但 是 ， 总 少不了 有 几 个 坏 家 伙 ,， 老 给 其 他 会 员 发 送 垃圾 邮件 ， 如 致富 经 、 药 品 
广告 以 及 以 收费 为 目的 的 数据 科学 家 资格 认证 项 目 等 。 因 此 ， 用 户 们 开始 投诉 。 不 久 ， 邮 
件 服务 部 的 副 总 就 把 你 叫 过 去 ， 让 你 利用 数据 科学 来 过 滤 这 些 垃圾 邮件 。 


13.1 个 简易 的 垃圾 邮件 过 滤器 


想象 有 一 个 “全 集 "， 其 中 存放 了 从 所 有 可 能 的 邮件 中 随机 选择 的 邮件 。 我 们 令 $ 表示 事 
件 “ 这 是 一 封 垃圾 邮件 "， 令 斑 表 示 事 件 “该 邮件 含有 单词 viagra"。 在 已 知 邮件 中 含有 音 
词 viagra 的 情况 下 ， 该 邮件 是 垃圾 邮件 的 概率 可 以 通过 贝 叶 斯 定理 求 出 ; 





























P(SIP)=[PCVIS) PNP TS PS PTV ISP 
上 式 中 ,分 子 表示 某 邮件 为 垃圾 邮件 并 且 其 中 包含 单词 viagra 的 概率 ， 而 分 母 表 示 邮 件 中 
出 现 单 词 viagra 的 概率 。 因 此 ， 你 可 以 认为 ， 上 面 的 公式 实际 上 是 在 计算 忽 售 伟哥 的 垃圾 
邮件 所 占 的 比例 。 








如 果 我 们 已 经 收集 了 大 量 垃 圾 邮件 和 非 垃圾 邮件 ， 那 么 就 可 以 轻松 计算 P(V | 9) 和 
P(V 1-5)。 如 果 我 们 进一步 假定 任何 邮件 是 垃圾 邮件 或 非 垃 圾 邮件 的 可 能 性 是 等 同 的 





152 


( 即 PC9)=P(mS)=0.5) ， 那 么 : 


P(SID=P(TISYLP( VIS)+P( VS)] 
举例 来 说 ， 如 果 50% 的 垃圾 邮件 都 含有 单词 viagra， 而 只 有 1% 的 非 垃 圾 邮件 含有 该 单词 ， 
那么 任何 一 封 含 有 单词 viagra 的 电子 邮件 为 垃圾 邮件 的 概率 是 : 








0.5/(0.5+0.01)=98% 


13.2 ”一 个 复杂 的 垃圾 邮件 过 滤器 


假设 我 们 已 建立 了 一 个 词汇 表 ， 其 中 含有 许多 单词 : wi, …, w,。 站 在 概率 论 的 角度 ， 我 
们 用 天 表示 事件 “一 封 含有 单词 wi 的 邮件 ”。 此 外 ， 我 们 还 假设 已 经 求 出 了 PXIS) 和 
POWmS)， 前 者 表示 垃圾 邮件 中 出 现 第 i 个 单词 的 概率 ， 后 者 表示 非 垃 圾 邮件 中 出 现 第 i 个 
单词 的 概率 。 


朴素 贝 叶 斯 算法 的 一 个 〈 大 的 ) 假设 是 ， 给 定 邮件 是 或 不 是 垃圾 邮件 的 条 件 下 ， 其 中 的 
每 个 单词 存在 与 否 与 其 他 单词 毫 不 相干 。 直 观 地 讲 ， 就 是 知道 某 封 垃圾 邮件 是 否 含 有 单 
词 viagra 无 法 帮助 我 们 判断 该 垃圾 邮件 是 否 含有 单词 rolex。 如 果 用 数学 公式 表示 的 话 ， 


就 是 : 























PC XX lS)=PAX XS) XP =x,S) 
这 是 一 个 非常 极端 的 假设 〈 这 也 部 分 解释 了 为 何 该 算法 名 中 含有 “朴素 ”一 词 )。 假 设 我 
们 的 词汇 表 仅 含有 单词 viagra 和 rolex， 并 且 一 半 的 垃圾 邮件 是 推销 “廉价 伟哥 ”的 ， 另 一 
半 是 推销 “劳力 士 正品 ”的 ， 这 样 的 话 ， 我 们 可 以 通过 朴素 贝 叶 斯 算法 计算 垃圾 邮件 中 同 
时 出 现 viagra 和 rolex 这 两 个 单词 的 概率 : 














P(X=1,%=1|S)=P(Y =1|S)P(YX=1|S)=0.5x0.5=0.25 
之 所 以 得 到 这 样 的 结果 ， 是 因为 我 们 的 假设 已 经 把 viagra 和 rolex 绝 不 会 同时 出 现 的 经 验 
给 扔 掉 了 。 尽 管 这 个 假设 与 事实 并 不 相符 ， 但 是 这 个 模型 的 表现 通常 都 很 好 ， 所 以 现实 中 
经 常用 它 过 滤 垃 圾 邮件 。 



































前 面 我 们 曾经 利用 贝 叶 斯 定理 过 滤 只 涉及 viagra 的 垃圾 邮件 ， 下 面 我 们 再 次 用 它 来 推断 一 
个 邮件 是 垃圾 邮件 的 概率 ， 具 体 公式 如 下 所 示 : 

















P(SI[X=x)=P(AX=x|S)Y[LP(X=x|S)+P(X=x|™S)] 
村 素 贝 叶 斯 假设 使 我 们 能 够 轻松 求 出 公式 右边 的 每 个 概率 ， 只 要 将 词汇 表 中 各 个 单词 的 概 
率 相 乘 即 可 。 
在 实践 中 ， 为 了 避免 所 谓 的 下 溢 (underflow) 问题 ， 你 通常 希望 尽量 避免 出 现 大 量 概率 
相 乘 的 情况 ， 因 为 计算 机 不 擅长 处 理 非 常 接近 于 零 的 浮 点 数 。 根 据 代数 知识 我 们 知道 ， 
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log(ab)=loga+logb 且 exp(logx)=x， 因 此 我 们 一 般 使 用 对 浮 点 数 更 加 友好 的 等 效 方法 来 计算 
pw*…*p,， 具 体 公式 如 下 所 示 : 


exp(log(p1)+*…+log(p,)) 
现在 ， 唯 一 的 挑战 就 是 估计 PQS) 和 PCOS) 了 ， 即 估计 垃圾 邮件 (或 非 垃 圾 邮件 ) 中 包 
含 单词 w 的 概率 。 如 果 我 们 掌握 了 相当 数量 的 “训练 ”邮件 ， 即 标记 为 垃圾 或 非 垃 圾 的 邮 
件 ， 那 么 很 明显 ， 这 时 计算 PCYi|5) 就 简化 为 求 包含 单词 w 的 垃圾 邮件 所 占 的 比例 了 。 


但 是 ， 这 会 引起 一 个 大 有 麻烦。 假如 词汇 表 中 的 单词 data 仅 出 现在 训练 集 的 非 垃圾 邮件 中 ， 
那么 P(“data”|S)=0。 也 就 是 说 ， 对 于 任何 含有 单词 data 的 邮件 ， 我 们 的 朴素 贝 叶 斯 分 
类 器 总 是 认为 它 是 垃圾 邮件 的 概率 为 0， 即使 是 像 含 有 “data on cheap viagra and authentic 
rolex watches”( 关 于 廉价 伟哥 和 劳力 士 正品 的 数据 ) 这 样 的 邮件 也 是 如 此 。 为 了 避免 这 种 
问题 ， 我 们 通常 要 使 用 某 种 平 请 技术 。 


准确 地 说 ， 我 们 引入 一 个 伪 记 数 (pseudo count)， 记 为 £， 并 通过 下 面 的 公式 来 计算 在 一 
封 垃圾 邮件 中 出 现 第 i 个 单词 的 概率 : 


























PS = (K+ 含有 wi 的 垃圾 邮件 的 数量 ) / (2k+ 垃圾 邮件 数量 ) 


P(Xim5) 的 计算 方法 与 此 类 似 。 亦 即 ， 当 计算 第 个 单词 出 现在 垃圾 邮件 中 的 概率 时 ， 我 
们 假定 还 看 到 : 额外 丰 封 垃圾 邮件 包含 该 单词 ， 额 外 上 封 垃 圾 邮件 不 包含 该 单词 。 


例如 ， 如 果 data 这 个 单词 在 98 封 垃 圾 邮件 中 出 现 了 0 次 ， 并且 k 取 值 为 1， 我 们 算出 
P(“data”|S) 为 1100 = 0.01， 这 样 一 来 ， 我 们 的 分 类 器 就 能 给 那些 含有 单词 data 的 邮件 为 
垃圾 邮件 的 概率 赋予 非 0 值 了 。 


Si 
13.3 算法 的 实现 

到 目前 为 止 ， 我 们 已 经 学 习 了 构建 垃圾 邮件 分 类 器 所 需 的 各 方面 的 知识 。 下 面 ， 我 们 首先 
建立 一 个 简单 的 图 数 ， 来 将 邮件 解析 为 不 同 的 单词 。 首 先 要 把 各 个 邮件 文本 转换 为 小 写 形 
式 ， 然 后 使 用 re.findall() 提取 由 字母 、 数 字 和 撒 号 组 成 的 “单词 >， 最 后 使 用 set() 函 
数 获得 不 同 的 单词 : 



































def tokenize(message): 


message = message.Lower() # 转换 为 小 写 
all words = re.findall("[a-z0-9']+", message) # 提取 单词 
return set(all_ words) # 移 除 副本 


我 们 的 第 二 个 函数 用 来 计算 单词 出 现在 已 做 标记 的 邮件 训练 集中 的 次 数 。 该 函数 将 返回 一 
个 字典 ， 其 键 为 单词 ， 甚 值 为 列表 ， 该 列表 包含 两 个 元 素 [spam_count，non_spam_count]， 
分 别 表示 该 单词 出 现在 垃圾 邮件 和 非 垃 圾 邮件 中 的 次 数 。 
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def count words(training_set): 
"""training set consists of pairs (message, is_spanm) 
counts = defauLtdict(Lambda: [0, 0]) 
for message, is_spam in training_set: 
for word in tokenize(message): 
counts[word][0 if is_spam else 1] += 1 
return counts 


mm 





接 下 来 ， 我 们 利用 前 面 讲 过 的 平滑 技术 将 这 些 计数 转换 为 估计 概率 。 函 数 将 返回 一 个 列 
表 ， 列 表 元 素 包含 三 方面 的 内 容 ， 分 别 是 各 个 单词 、 该 单词 出 现在 垃圾 邮件 中 的 概率 以 及 
该 单词 出 现在 非 垃圾 邮件 中 的 概率 : 











def word_probabilities(counts, total_spams, total_non_spams, k=0.5): 
"""turn the word_counts into a list of triplets 
w, p(w / spam) and p(w | ~spam)""" 
return [(w, 
(spam + k) / (total_spams + 2 * k), 
(non_spam + k) / (total_non_spams + 2 * k)) 
for w, (spam, non_spam) in counts.iteritems()] 


hl 





最 后 要 做 的 事情 是 利用 这 些 单词 的 概率 〈 以 及 朴素 贝 叶 斯 假设 ) 给 邮件 赋予 概率 : 





def spam_probability(word_probs, message): 
message_words = tokenize(message) 
log_prob_if_spam = log_prob_if not_ spam = 0.0 


# 进 代 词汇 表 中 的 每 一 个 单词 


for word，prob_if_spam，prob_if_not_spam in word_probs: 





# 如 果 *word* 出 现在 了 邮件 中 

# 则 增加 看 到 它 的 对 数 概率 

if word in message_words: 
Log_prob_if_spam += math.log(prob_if_spam) 
Log_prob_if_not_spam += math.Log(prob_if_not_spam) 





也 


# 如 果 *word* 没 有 出 现在 邮件 
# 则 增加 看 不 到 它 的 对 数 概率 
# 也 就 是 Log(1 - 看 到 它 的 概率 ) 
else: 
Log_prob_if_spam += math.Log(1.0 - prob_if_spam) 
Log_prob_if_not_spam += math.Log(1.0 - prob_if_not_spam) 








prob_if_spam = math.exp(log_prob_if_spam) 
prob_if_not_spam = math.exp(Log_prob_if_not_spam) 
return prob_if_ spam / (prob_if_ spam + prob_if_ not_spam) 


将 上 面 的 代码 结合 起 来 ， 就 得 到 了 我 们 的 村 素 贝 叶 斯 分 类 器 : 
class NaiveBayesClassifier: 
def _ init (self, k=0.5): 


self.k =k 
self.word_probs = [] 
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def train(self, training_set): 


# 对 垃圾 邮件 和 非 垃圾 邮件 计数 

num_spams = len([is_spam 
for message, is_spam in training_set 
if is_spam]) 

num_non_spams = len(training_set) - num_spams 


# 通过 "pipeline" 运 行 训练 数据 

word_counts = count words(training_set) 

self.word_probs = word_probabilities(word_counts, 
num_spams ， 
num_non_spams ， 
self.k) 


def classify(self, message): 
return spam_probability(self.word_probs, message) 


13.4 测试 模型 

SpamAssassin 垃圾 邮件 公共 语料库 (https://spamassassin.apache.org/publiccorpus/) 是 一 
个 非常 不 错 (尽管 有 点 老 ) 的 数据 集 。 我 们 将 考察 其 中 前 绥 为 20021010 的 文件 。 在 
Windows 系统 上 ， 你 可 能 需要 用 到 类 似 7-Zip (http://www.7-zip.org/) 的 压缩 软件 来 解压 和 
提取 文件 。 


提取 数据 之 后 (例如 提取 到 Ci\spam 目录 下 面 )， 你 会 看 到 3 个 文件 夹 : spam、easy_ham 
和 hard_ham。 每 个 文件 夹 中 都 存放 了 许多 电子 邮件 ， 每 封 邮件 都 单独 存放 于 一 个 文件 之 
中 。 为 简单 起 见 ， 我 们 只 检测 每 封 邮件 的 主题 行 。 


那么 ， 我 们 应 如 何 识别 主题 呢 ? 通过 观察 可 以 发 现 ， 这 些 文件 似乎 都 是 以 “Subject: ” 开 


头 的 。 

















因此 ， 我 们 可 以 利用 下 面 的 代码 来 识别 主题 内 容 : 














import glob, re 


# 把 路 径 修改 为 你 存放 文件 的 那个 
path = r"C:\spam\*\*" 


data = [] 


# glob.glob 会 返回 每 一 个 与 通 配 路 径 所 匹配 的 文件 名 
for fn in glob.glob(path): 


is_spam = "ham" not in fn 


with open(fn,'r') as file: 
for line in file: 
if line.startswith("Subject:"): 
# 移 除开 头 的 "Subject: " ,保留 其 余 内 容 


subject = re.sub(r"^Subject: "， ， line).strip() 
data.append((subject, is_spam)) 
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好 了 ， 现 在 我 们 把 数据 分 为 训练 数据 和 测试 数据 ， 然 后 开始 建立 分 类 器 : 


random. seed(0) # 这 样 你 能 得 到 与 我 相同 的 答案 
train_data, test data = split data(data, 0.75) 


classifier = NaiveBayesClassifier() 
classifier.train(train_data) 


然后 ， 我 们 可 以 检查 一 下 模型 的 效果 如 何 : 


# 三 个 元 素 (主题 ,确实 是 垃圾 邮件 ,预测 为 垃圾 邮件 的 概率 ) 
classified = [(subject, is_ spam, classifier.classify(subject)) 
for subject, is spam in test datal] 


# 假设 spam_probability > 0.5 对 应 的 是 预测 为 垃圾 邮件 
# 对 (actuaL is_spam，predicted is_spam) 的 组 合计 数 
counts = Counter((is_spam, spam_probability > 0.5) 
for _, is_spam, spam_probability in classified) 


结果 显示 ， 真 阳性 ( 即 垃圾 邮件 被 分 类 为 spam) 有 101 例 ， 假 阳性 〈 即 正常 邮件 被 分 类 为 
spam) 有 33 例 ， 真 阴性 〈 即 正常 邮件 被 分 类 为 hnam) 有 704 例 ， 以 及 假 阴性 〈 即 垃圾 邮 
件 被 分 类 为 ham) 有 38 例 。 也 就 是 说 ， 算 法 的 查 准 率 是 101 / (101 + 33) = 75% ， 查 全 率 是 
101/(101 + 38) =73%， 对 于 如 此 简单 的 一 个 模型 来 说 ， 这 样 的 结果 已 经 不 错 了 。 








由 此 也 引出 了 一 个 有 趣 的 问题 ， 到 底 哪些 邮件 最 容易 被 错误 分 类 呢 ?” 请 看 下 面 的 代码 : 


# 根据 spam_probability 从 最 小 到 最 大 排序 
classified.sort(key=lambda row: row[2]) 


# 非 垃圾 邮件 被 预测 为 垃圾 邮件 的 最 高 概率 


spammiest_hams = fiLLter(Lambda row: not row[1], classified)[-5:] 


# 垃圾 邮件 被 预测 为 垃圾 邮件 的 最 低 概率 

hammiest_spams = fiLLter(Lambda row: row[1], classified)[:5] 
这 两 种 最 容易 被 误 判 为 垃圾 邮件 的 正常 邮件 都 含有 单词 needed ( 它 在 垃圾 邮件 中 出 现 的 概 
率 要 高 77 倍 ) 、insurance ( 它 在 垃圾 邮件 中 出 现 的 概率 要 高 30 倍 ) 和 important ( 它 在 垃 
圾 邮件 中 出 现 的 概率 要 高 10 倍 ) 。 














最 容易 误 判 为 正常 邮件 的 垃圾 邮件 的 标题 都 太 短 (“Re: girls”)， 以 至 于 难以 判断 ， 排 行 第 
二 的 容易 误 判 为 正常 邮件 的 垃圾 邮件 是 信用 卡 邀 约 邮 件 ， 因 为 相关 的 词 大 多 尚未 被 收录 到 
训练 集中 。 


同样 ， 我 们 也 可 以 看 出 现 哪些 词 最 容易 被 误 判 为 垃圾 邮件 ， 有 具体 代码 如 下 所 示 : 

















def p_spam_given word(word_prob): 
"""Uuses bayes's theorem to compute p(spam | message contains word)""" 





# word_prob 是 由 word_probabiLities 生 成 的 三 元 素 中 的 一 个 
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最 


word，prob_if_spam，prob_if_not_spam = word_prob 
return prob_if_spam / (prob_if_spam + prob_if_not_spam) 


words = sorted(classifier.word_probs, key=p_spam_given_word) 


spammiest_words = words[-5:] 
hammiest_words = words[:5] 


容易 被 判定 为 垃圾 邮件 的 单词 包括 money、systemworks、rates、sale 以 及 year， 这 些 似 


乎 都 与 名 悠 人 买 东西 有 关 。 而 最 容易 被 判定 为 正常 邮件 的 单词 有 spambayes、users、razor、 
zzzzteana 和 sadev， 其 中 大 部 分 好 像 都 与 阻止 垃圾 邮件 相关 ， 这 上 比较 奇怪 。 














那么 ， 我 们 该 如 何 改进 性 能 呢 ? 一 个 显而易见 的 方法 是 设法 获取 更 多 的 训练 数据 。 此 外 ， 
还 有 许多 可 以 改善 模型 本 身 的 方法 。 大 家 不 妨 尝试 以 下 具体 的 方法 。 


考察 邮件 内 容 ， 而 不 是 仅仅 考察 邮件 主题 。 你 还 必须 仔细 考虑 邮件 开头 的 处 理 方式 。 
我 们 的 分 类 器 考虑 了 训练 集中 包含 的 所 有 单词 ， 即 使 该 单词 仅仅 出 现 过 一 次 。 修 改 分 类 
器 ， 让 它 接 受 一 个 可 选 准 值 min_count， 并 且 如 果 某 个 单词 在 训练 集中 出 现 次 数 少 于 国 
值 则 不 予 考虑 。 

标记 赋予 器 缺乏 相似 词 (例如 cheap 和 cheapest) 的 概念 。 修 改 分 类 器 ， 使 其 接受 一 个 
可 选 的 词 干 分 析 器 (stemmer) 函数 来 找 出 单词 对 应 的 同类 词 。 下 面 我 们 以 一 个 非常 简 
单 的 词 干 分 析 器 函数 为 例 进行 介绍 : 








def drop_final_s(word): 
return re.sub("s$", "", word) 


自己 创建 一 个 非常 好 用 的 词 干 分 析 器 函数 非常 困难 ， 所 以 人 们 通常 使 用 现成 的 波 特 词 干 


器 (Porter Stemmer,， http://tartarus.org/martin/PorterStemmer/) 。 





虽然 我 们 的 特征 都 是 采取 了 “含有 单词 w 的 邮件 ”的 形式 ， 但 这 不 代表 必须 采取 这 种 
形式 。 在 我 们 的 代码 实现 中 ， 也 可 以 添加 额外 的 特征 ， 比 如 “含有 一 个 数字 的 邮件 ”。 
为 此 ,可 以 创建 类 似 contains:number 这 样 的 伪 标记 , 然后 修改 标记 赋予 器 (tokenizer)， 
让 它 在 适当 的 时 候 放 出 这 些 伪 标记 。 





13.5 延伸 学 习 


Paul Graham 的 “A Plan for Spam” (http:/www.paulgraham.com/spam.html) 和 “Better 
Bayesian Filtering” (http://www.paulgraham.com/better.html) 这 两 篇 文章 对 如 何 打造 垃圾 
邮件 过 滤器 提供 了 更 加 有 趣 而 深入 的 介绍 。 

scikit-learn 库 (http://scikit-learn.org/stable/modules/naive_bayes.html) 提供 了 一 个 名 为 
BernouLLiNB 的 模型 ， 也 实现 了 与 本 章 介绍 的 相同 的 朴素 贝 叶 斯 算法 以 及 基于 该 算法 的 
其 他 变种 。 
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第 14 章 


简单 线性 回归 





艺术 束 像 道德 ， 需 要 在 某 个 地 方 画 线 。 
一 一 吉尔 伯 特 : 切 斯 特 顿 
在 第 5 章 中 ， 我 们 曾经 使 用 相关 函数 correlation 来 衡量 两 个 变量 之 间 的 线性 关系 的 强度 。 


对 于 大 多 数 应 用 来 说 ， 仅 仅 知 道 存在 这 样 的 线性 关系 是 远 远 不 够 的 。 如 有 果 我 们 希望 了 解 这 
种 关系 的 性 质 ， 可 以 使 用 简单 线性 回归 。 


14.1 模型 


别 忘 了 ， 我 们 正在 探讨 的 是 DataSciencester 用 户 的 朋友 数量 与 其 每 天 花 在 该 网 站 上 的 时 
间 之 间 的 关系 。 我 们 假设 ， 你 已 经 说 服 自己 结交 的 朋友 越 多 会 导致 人 们 花 在 网 站 上 的 时 
间 越 长 。 

这 时 ， 参 与 部 的 副 总 要 你 建立 一 个 模型 来 描述 这 种 关系 。 既 然 你 发 现 有 很 强 的 线性 
关系 ， 那 么 自然 就 要 从 线性 模型 开始 着 手 了 。 准 确 地 说 ， 假 设 有 常数 wx (alpha) 和 8 
(beta) ， 使 得 : 




















DJ 六 pxiTaT+E8i 
甚 中, y; 是 用 户 i 每 天 花 在 网 站 上 的 分 钟 数 ，x; 是 用 户 i 已 有 的 朋友 数 ， 而 s 是 误差 项 ， 用 
来 表示 这 个 简单 模型 没有 考虑 到 的 其 他 因素 ， 当 然 ， 误 差 项 越 小 越 好 。 














只 要 我 们 求 出 aLpha 和 beta， 就 能 轻松 通过 下 列 公 式 来 进行 预测 了 : 


159 


def predict(alpha, beta, x_i): 
return beta * x_i + alpha 


那么 ， 该 如 何 选 择 alpha 和 beta 呢 ?” 实 际 上 ， 只 要 任意 选 定 的 alpha 和 beta 值 ， 对 于 每 个 输 
入 xi， 都 能 得 到 一 个 预测 的 输出 值 。 由 于 知道 实际 输出 值 y_i， 因 此 可 以 计算 它们 的 误差 : 























def error(alpha, beta, x_i, y_i): 
"""the error from predicting beta * Xi + alpha 
when the actual value is y_i""" 
return y 1 - predict(alpha, beta, x_i) 


实际 上 ， 我 们 真正 想 知道 的 是 整个 数据 集 的 总 体 误差 情况 。 不 过 ， 我 们 不 能 简单 地 将 各 个 
误差 加 起 来 ， 这 是 因为 ， 如 果 x_1 预测 得 太 高 ， 而 x_2 预测 得 太 低 ， 那 么 它们 的 误差 加 在 
一 起 就 会 相互 抵消 了 。 

















因此 ， 我 们 要 对 误差 的 平方 求 和 ; 
def sum_of_squared_errors(aLpha，beta，x，y): 
return sum(error(alpha, beta, x_i, y i) xx 2 


for x_i, yi in zip(x, y)) 


我 们 可 以 通过 最 小 二 乘法 来 选择 alpha 和 beta， 以 使 sum_of_squared_errors 尽 可 能 小 。 





利用 微 积 分 (或 单调 乏味 的 代数 )， 我 们 就 可 以 求 出 令 误差 最 小 化 的 alpha 和 beta 了 , 具 
体 代 码 如 下 所 示 : 


def least_squares_fit(x, y): 
"""given training values for x and y, 
find the least-squares values of alpha and beta" 
beta = correlation(x, y) * standard deviation(y) / standard_deviation(x) 
alpha = mean(y) - beta * mean(x) 
return alpha, beta 


不 要 忙 着 进行 严格 的 数学 推导 ， 让 我 们 先 想 想 为 什么 这 可 能 是 一 个 合理 的 解决 方案 。 实 际 
上 ， 选 定 alpha 后 ， 只 要 给 出 自 变量 x 的 平均 值 ， 我 们 就 能 预测 因 变 量 y 的 平均 值 。 





选 定 了 beta， 就 意味 着 输入 值 每 增加 standard_deviation(x)， 预 测 值 就 会 增加 
correlation(x,y) * standard_deviation(y)。 就 本 例 来 说 ， 如 果 x 和 y 完全 相关 ， 则 x 每 
增加 一 个 标准 偏差 ， 预测 值 就 会 增加 y 的 一 个 标准 偏差 。 当 它们 完全 负 相 关 的 时 候 ， 预 测 
值 会 随 着 x 的 增加 而 减 小 。 当 它们 的 相关 性 为 0 时 ，beta 为 0， 这 意味 着 x 的 变化 根本 不 
会 对 预测 值 产生 影响 。 


我 们 使 用 第 5 章 中 的 异常 值 数 据 来 计算 这 两 个 值 . 




















下 玫 


alpha, beta = least_ squares_fit(num friends_good, daily_minutes_ good) 

















计算 结果 是 ，alpha = 22.95，beta = 0.903。 因 此 ， 根 据 我 们 的 模型 来 看 ， 具 有 n 个 好 友 的 
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用 户 每 天 会 在 这 个 网 站 上 花 22.95 + n * 0.903 分 钟 。 同 时 ， 对 于 在 DataSciencester 上 再 
没有 朋友 的 用 户 来 说 ， 他 们 每 天 仍然 会 花 23 分 钟 泡 在 这 个 网 站 上 。 此 外 ， 用 户 每 增加 一 
个 朋友 ， 每 天 花费 在 这 个 网 站 上 的 时 间 就 会 多 出 一 分 钟 左 右 。 在 图 14-1 中 ， 我 们 绘制 了 该 
模型 的 预测 线 ， 从 中 可 以 看 出 模型 的 预测 与 观测 数据 的 拟 合 效果 。 




















简单 线性 回归 模型 
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40 
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图 14-1: 简单 线性 模型 














当然 ， 仅 仅 依靠 目测 是 不 够 的 ， 我 们 需要 一 个 更 好 的 指标 来 评估 模型 对 数据 的 拟 合 效果 。 
一 个 常见 的 指标 是 决定 系数 (coefficient of determination) 或 RR 平方 ， 用 来 表示 纳入 模型 的 
自 变量 引起 的 变动 占 总 变动 的 百分比 : 








def total_sum _of_squares(y): 
"""the total squared variation of y_i's from their mean"”"”" 
return sum(v ** 2 for v in de_mean(y)) 


def r_squared(alpha, beta, x, y): 
"""the fraction of variation in y captured by the model, which equals 


1 - the fraction of variation in y not captured by the model""" 


return 1.0 - (sum_of_squared errors(alpha, beta, x, y) / 
total_sum_of_squares(y)) 


r_squared(alpha, beta, num_friends_good, daily_minutes_good) # 0.329 
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现在 ， 我 们 已 经 选取 了 令 预 测 误差 平方 和 最 小 化 的 atpha 和 beta。 我 们 选择 的 是 一 个 “总 
是 预测 nean(y)” 的 线性 模型 ( 即 alpha = mean(y) 且 beta = 0)， 模 型 误差 平方 和 正好 等 
于 其 平方 总 和 。 这 就 意味 着 拟 合 优 度 (R 平方 ) 的 值 为 0， 表 明 模 型 (显然 ， 在 这 种 情况 
下 ) 几乎 只 能 预测 平均 值 。 





很 明显 ， 最 小 二 乘 模型 最 差 的 时 候 ， 就 是 误差 的 平方 和 最 大 为 平方 总 和 的 时 候 ， 也 是 R 平 
方 最 小 为 0 的 时 候 。 同 时 ， 因 为 误差 的 平方 和 至 少 为 0， 所 以 及 平方 至 多 为 1。 

R 平方 的 值 越 大 ， 说 明 模 型 对 数据 的 拟 合 度 越 高 。 在 这 里 ，R 平方 的 值 为 0.329， 说 明 模 型 
对 这 些 数据 的 拟 合 度 不 是 很 高 ， 显 然 还 有 设 考 虑 到 的 其 他 因素 在 起 作用 。 


14.2 利用 梯度 下 降 法 


如 果 我 们 记 theta = [alpha，beta]， 那 么 也 可 以 通过 梯度 下 降 法 来 求 参 数 : 











def squared error(x_i, y_ i, theta): 
alpha, beta = theta 
return error(alpha, beta, x_i, y i) ** 2 


def squared error_gradient(x_i, y_i, theta): 
alpha, beta = theta 
return [-2 * error(alpha, beta, x_i, y_i), # alpha 偏 导数 
-2 * error(alpha, beta, x_i, y_i) * x_i] # beta 偏 导数 


# 选择 一 个 随机 值 作为 开始 

random. seed(0) 

theta = [random.random(), random.random()] 

alpha, beta = minimize_stochastic(squared error, 
squared_error_gradient, 
num_friends_good, 
daily_minutes_good, 
theta, 
0.0001) 

print alpha, beta 


使 用 相同 的 数据 ， 我 们 得 到 alpha = 22.93，beta = 0.905， 这 与 精确 的 答案 非常 接近 。 


14.3 ”最 大 似 然 估计 


我 们 为 什么 会 选择 最 小 二 乘法 呢 ? 其 中 一 个 原因 就 是 最 大 似 然 估 计 (maximum likelihood 
estimation) 。 假 设 我 们 的 数据 样本 v,,…,v, 服从 由 未 知 参数 0 确定 的 概率 分 布 : 





PC “ ,Vl0) 
虽然 我 们 不 知道 6， 但 是 可 以 回 过 头 来 通过 给 定 样 本 与 9 的 相似 度 来 考量 这 个 参数 : 


ZCo Sv) 
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按照 这 种 方法 ，0 最 可 能 的 值 就 是 最 大 化 这 个 似 然 函数 的 值 ， 即 能 够 以 最 高 概率 产生 观测 
数据 的 值 。 在 具有 概率 分 布 国 数 而 非 概率 密度 函数 的 连续 分 布 的 情况 下 ， 我 们 也 可 以 做 同 
样 的 事情 。 

再 回 到 回归 这 个 话题 。 对 于 简单 回归 模型 来 说 ， 通 常 假设 回归 误差 是 呈正 态 分 布 的 ， 其 均 
值 为 0， 并 且 已 知 标准 偏差 o。 如 果 是 这 样 的 话 ， 那 么 就 可 以 通过 下 面 的 似 然 函 数 来 描述 
a 和 PB 产生 (xi, y_i) 的 可 能 性 大 小 了 : 

















1 2 且 
TAO PC -CTP /207) 
由 于 待 估计 的 参数 产生 整个 数据 集 的 可 能 性 为 产生 各 个 数据 的 可 能 性 之 积 ， 因 此 令 误差 的 


平方 和 最 小 的 atpha 和 beta 最 有 可 能 是 我 们 所 求 的 。 换 名 话说 ， 在 这 种 情况 下 (包括 这 些 
假设 ) ， 最 小 化 误差 的 平方 和 等 价 于 最 大 化 产生 观测 数据 的 可 能 性 。 


14.4 延伸 学 习 


请 继续 往 下 阅读 第 15 章 介绍 的 多 重 回归 分 析 ! 
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第 15 章 


多 重 回归 分 析 





我 不 会 盯 着 一 个 问题 看 ， 并 往 其 中 添加 无 用 的 变量 。 
一 比尔 帕 塞 尔 斯 


虽然 副 总 对 你 的 预测 模型 很 满意 ， 但 是 他 认为 你 还 可 以 做 得 更 好 。 为 此 ， 你 收集 了 额外 的 
数据 : 对 于 每 一 个 用 户 ， 你 不 仅 了 解 他 每 天 工作 多 少 小 时 ， 同 时 还 调查 了 他 是 否 拥有 博士 
学 位 。 你 希望 通过 这 些 补充 资料 来 改进 模型 。 


因此 ， 你 提出 了 一 个 带 有 更 多 自 变 量 的 线性 模型 : 








minutes = + pifriends + p,work hours + pphd + e 


显然 ， 用户 是 否 拥 有 博士 学 位 并 非 一 个 数值 问题 ， 但 如 同 第 11 章 所 提 到 的 ， 我 们 可 以 引 
入 一 个 虚拟 变量 ， 当 这 个 变量 等 于 1 的 时 候 ， 表 示 用 户 拥 有 博士 学 位 ， 反 之 则 表示 没有 博 
士 学 位 ， 这 样 就 能 像 其 他 变量 一 样 将 其 视 为 一 个 数值 了 。 


15.1 模型 


回想 一 下 ， 我 们 在 第 14 章 中 所 拟 合 的 模型 形式 如 下 所 示 : 














yE 0 + pxit 


现在 ， 如 果 每 个 输入 x 不 再 是 单个 数字 ， 而 是 一 个 由 个 数字 1…, xk 组 成 的 向 量 ， 那 么 
我 们 的 多 重 回归 模型 则 应 该 为 : 
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对 于 多 重 


beta = [alpha, beta 1，...， 


同时 : 





yE a+tprat +het ei 


回归 分 析 来 说 ， 参 数 向 量 通 常 称 为 8。 我 们 希望 这 个 向 量 也 包括 一 个 常数 
此 ， 只 要 向 我 们 的 数据 中 添加 一 列 即 可 : 





WL Sr .NL 


beta_k] 


那么 ， 我 们 的 模型 可 以 用 下 列 函数 实现 : 


def predict(x_i, beta): 
"""assumes that the first element of each Xi is 1""" 
return dot(x_i, beta) 








就 本 例 而 言 ， 
[1， # 常数 项 
49， # 朋友 数 
4， # 每 日 工作 时 长 
0] # 没有 博士 学 位 





自 变 量 x 是 一 个 向 量 型 列表 ， 每 个 列表 元 素 如 下 所 示 : 


15.2 ”最 小 二 乘 模型 的 进一步 假设 


对 于 我 们 的 模型 (以 及 我 们 的 解决 方案 ) 来 说 ， 需 要 添加 另外 两 个 假设 ， 才 能 够 言 之 有 理 。 


项 


~、 


» 
9 人 


第 一 个 假设 是 x 的 各 个 列 是 线性 无 关 的 ， 即 任何 一 列 绝对 不 会 是 其 他 列 的 加 权 和 。 如 果 这 
个 假设 不 成 立 ， 则 无 法 估计 beta。 为 了 了 解 极 端的 情形 ， 我 们 可 以 想象 数据 中 有 一 个 额外 
的 字段 num_acquaintances， 并 且 对 于 每 一 个 用 户 来 说 它 都 等 于 num_friends。 





那么 ， 对 于 任何 beta， 如 果 num_friends 的 系数 增加 了 某 个 数值 ， 而 num_acquaintances 的 
系数 同时 减 小 相同 数值 的 话 ， 那 么 模型 的 预测 就 会 保持 不 变 。 也 就 是 说 ， 我 们 根本 就 没有 
办 法 确定 num_friends 的 系数 。( 通 常 来 说 ， 对 于 这 个 假设 的 违背 情况 一 般 不 会 这 么 明显 ,) 
第 二 个 重要 的 假设 是 x 的 各 列 与 误差 6 无关。 如 果 这 个 假设 不 成 立 ， 对 于 beta 的 估计 就 会 
出 现 系统 性 的 错误 。 


比如 ， 在 第 14 章 中 ， 我 们 建立 的 模型 的 预测 结果 为 ， 用 户 每 增加 一 个 朋友 ， 每 天 花 在 网 





站 上 的 时 间 就 会 多 出 0.90 分 钟 。 


想象 一 下 ， 还 有 下 列 情况 。 


。 工作 时 间 越 长 的 人 在 网 站 上 花 的 时 间 越 少 。 
。 朋友 更 多 的 人 倾向 于 工作 更 长 时 间 。 


























多 重 回归 分 析 
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也 就 是 说 ， 假 设 “ 实 际 的 ”模型 为 : 
minutes =a + pifriends + pywork hours + e 
并 且 工 作 时 间 和 朋友 数量 是 正 相 关 的 。 那 样 的 话 ， 当 我 们 最 小 化 单 变量 模型 的 误差 时 : 
minutes =a + pifriends + e 
我 们 会 低估 p。 


考虑 一 下 ， 如 果 这 个 单 变 量 模 型 已 知 p 的 “实际 ” 值 ， 那 么 这 时 再 用 它 来 预测 将 会 如 何 。 
( 亦 即 ， 这 个 值 来 自 令 误差 最 小 化 的 “实际 ”模型 。) 这 时 候 ， 对 工作 时 间 比 较 长 的 用 户 来 
说 ， 产 生 的 预测 值 往往 太 小 ， 对 工作 时 间 比 较 短 的 用 户 来 说 ， 产 生 的 预测 值 往往 又 过 大 ， 
这 是 因为 hp,>0， 但 是 我 们 “ 忘 了 ”把 它 考 虑 进去 。 由 于 工作 时 间 与 朋友 的 数量 是 呈正 相关 
的 ， 这 就 意味 着 对 于 朋友 数量 较 多 的 用 户 来 说 ， 模 型 给 出 的 预测 值 往往 太 小 ， 对 于 朋友 数 
量 较 少 的 用 户 来 说 ， 模 型 给 出 的 预测 值 往往 太 大 。 这 样 做 的 结果 是 ， 我 们 可 以 通过 降低 
的 估计 值 来 减少 ( 单 变量 模型 的 误差 ， 即 误差 最 小 化 的 pi 是 小 于 其 “实际 ” 值 的 。 也 就 
是 说 ， 在 这 种 情况 下 ， 单 变量 的 最 小 二 乘 解 偏向 于 低估 p,。 一 般 而 言 ， 当 自 变 量具 有 与 此 
类 似 的 误差 时 ， 我 们 的 最 小 二 乘 解 给 出 的 8 是 有 偏 估计 。 


15.3 ” 拟 合 模型 


就 像 对 简单 线性 模型 所 做 的 那样 ， 我 们 这 里 也 需要 寻找 一 个 能 够 最 小 化 误差 的 平方 和 的 
beta。 要 想 以 手动 方式 找到 一 个 精确 的 解 可 不 是 一 件 容易 的 事 ， 因 此 ， 我 们 转 而 求助 于 梯 
度 下 降 。 下 面 我 们 首先 创建 一 个 待 最 小 化 的 误差 函数 。 对 于 随机 梯度 下 降 来 说 ， 我 们 只 需 
要 单 次 预测 对 应 的 平方 误差 : 






































def error(x_i, y_i, beta): 
return y 1 - predict(x_ i, beta) 


def squared error(x_i, y_i, beta): 
return error(x_i, y_i, beta) ** 2 


如 果 你 熟悉 微 积 分 ， 可 以 通过 下 面 的 方式 进行 计算 : 
def squared_error_gradient(x_ i, y_i, beta): 
"""the gradient (with respect to beta) 
corresponding to the ith squared error term""" 
return [-2 * x_ij * error(x_i, y i, beta) 
for x_ij in x_i] 


否则 的 话 ， 就 按照 我 说 的 来 。 
至 此 ， 我 们 就 可 以 利用 随机 梯度 下 降 法 来 寻找 最 优 的 beta 了 : 
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def estimate_beta(x，y) : 
beta_initial = [random.random() for x_i in x[0]] 
return minimize_stochastic(squared_error, 
squared_error_gradient, 


X， y， 
beta_initial, 
0.001) 


random.seed(0) 
beta = estimate beta(x, daily_minutes_good) # [30.63, 0.972, -1.868, 0.911] 


这 样 的 话 ， 我 们 的 模型 就 变 成 了 : 


minutes = 30 .63 + 0 . 972 friends — 1 .868 work hours + 0 .911 phd 


15.4 ”解释 模型 


你 应 该 把 模型 的 系数 看 作 在 其 他 条 件 相同 的 情况 下 每 个 因素 的 影响 力 的 大 小 。 在 其 他 条 件 
相同 的 情况 下 ， 每 增加 一 个 朋友 ， 每 天 花 在 网 站 上 的 时 间 就 会 多 出 一 分 钟 。 在 其 他 条 件 相 
同 的 情况 下 ， 用 户 在 工作 日 每 多 工作 一 个 小 时 ， 每 天 花 在 网 站 上 的 时 间 就 会 减少 两 分 钟 。 
在 其 他 条 件 相 同 的 情况 下 ， 拥 有 博士 学 位 的 用 户 每 天 用 在 网 站 上 的 时 间 会 多 出 一 分 钟 。 
但 是 ， 它 没有 (直接 ) 反映 变量 之 间 的 任何 相互 作用 。 较 之 于 朋友 较 少 的 人 而 言 ， 工 作 时 
间 对 朋友 较 多 的 人 的 影响 很 可 能 是 不 一 样 的 ， 而 这 个 模型 并 没有 捕捉 到 这 一 点 。 要 想 处 理 
这 种 情况 ， 一 种 方法 是 引入 一 个 新 变量 ， 即 “朋友 数量 ”与 “工作 时 间 ” 之 积 。 这 样 实际 
上 就 使 得 “工作 时 间 ” 的 系数 可 以 随 着 朋友 数量 的 增加 而 增加 (或 减少 )。 

还 有 一 种 可 能 ， 就 是 朋友 越 多 ， 花 在 网 站 上 的 时 间 就 越 多 ， 但 是 达到 一 个 上 限 之 后 ， 更 多 
的 朋友 反而 会 导致 花 在 网 站 上 的 时 间 变 少 。( 或 许 是 因为 朋友 太 多 了 反而 上 网 体验 会 很 精 
糕 ? ) 我 们 可 以 设法 让 模型 捕获 到 这 一 点 ， 方 法 是 添加 另 一 个 变量 ， 即 朋友 数量 的 平方 。 
一 旦 我 们 开始 添加 变量 ， 我 们 就 需要 孝 虑 它们 的 系数 “问题 "*。 对 于 添加 的 乘积 、 对 数 、 
二 次 宕 以 及 更 高 次 客 来 说 ， 其 数量 上 是 没有 限制 的 。 


15.5 ” 拟 合 优 度 


现在 ， 我 们 再 来 看 看 R 的 平方 值 ， 目 前 已 经 升 至 0.68 了 : 




































































def multiple_r_squared(x, y, beta): 
sum_of_squared_ errors = sum(error(x_ i, y i, beta) ** 2 
for x_i, yi in zip(x, y)) 
return 1.0 - sum_of_squared_errors / total_sum of_squares(y) 





五 





但 是 不 要 忘 了 ， 只 要 向 回归 模型 中 添加 新 的 变量 就 必然 导致 R 的 平方 变 大 。 归 根 结 底 ， 前 
面 的 简单 回归 模型 只 是 这 里 的 多 重 回归 模型 的 特例 而 已 ， 即 “工作 时 间 ” 和 “博士 ”这 两 
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列 的 系数 都 等 于 0。 因 此 ， 最 优 的 多 元 回归 模型 ， 其 误差 一 定 不 会 高 于 简单 回归 模型 。 











因此 ， 对 于 多 重 回归 分 析 而 言 ， 我 们 还 要 考察 系数 的 标准 误差 ， 即 衡量 每 个 p; 的 估计 值 的 
可 靠 程度 。 


总 的 来 说 ， 回 归 模 型 通常 能 够 很 好 地 拟 合 我 们 的 数据 ， 但 是 ， 如 果 某 些 自 变量 是 相关 的 
(或 不 相关 的 )， 那 么 其 系数 就 未 必 有 多 大 的 意义 了 。 


对 于 这 些 误差 ， 传 统 的 度量 方法 通常 都 带 有 一 个 前 提 假 设 ， 即 误差 s 是 独立 的 正 态 随机 变 
量 ， 其 平均 值 为 0， 标 准 偏差 为 o (未 知 )。 那 样 的 话 ， 我 们 (或 者 说 我 们 的 统计 软件 ) 就 
可 以 使 用 线性 代数 来 确定 每 个 系数 的 标准 误差 了 。 这 个 误差 越 大 ， 说 明 模 型 的 系数 越 不 靠 
谱 。 令 人 遗憾 的 是 ， 我 们 不 打算 从 零 开 始 介绍 这 类 线性 代数 。 

















Mer 


15.6 题 外 话 : Bootstrap 


假设 我 们 有 一 个 含有 个 数据 点 的 样本 ， 并 且 这 些 点 是 按照 某 种 (我们 不 知道 的 ) 概率 分 
布 生 成 的 : 








data = get_sample(num_points=n) 


在 第 5 章 中 ， 我 们 曾经 编写 了 一 个 计算 观测 数据 中 位 数 的 函数 ， 现 在 拿 它 来 估算 该 分 布 本 
身 的 中 位 数 。 


但 是 ， 我 们 该 如 何 了 解 这 些 佑 计 值 的 可 靠 性 呢 ? 如 果 样 品 中 所 有 的 数据 都 非常 接近 100， 
则 实际 的 中 位 数 很 可 能 也 非常 接近 100。 如 果 样 本 中 一 半 左 右 的 数据 接近 0， 而 另 一 半 则 
接近 200， 那 么 我 们 就 很 难 确信 中 位 数 到 底 接 近 多 少 。 

如 果 我 们 能 够 不 断 获得 新 的 样本 ， 那 么 就 可 以 计算 出 每 个 新 样本 的 中 位 数 ， 并 观察 这 些 中 
位 数 的 分 布 情况 。 但 是 ， 一 般 这 是 不 现实 的 。 相 反 ， 我 们 可 以 利用 Bootstrap 来 获得 新 的 数 
据 集 ， 即 选择 二 个 数据 点 并 用 原来 的 数据 将 其 替换 ， 然 后 计算 合成 的 数据 集 的 中 位 数 : 





























def bootstrap_sample(data): 
"""randomly samples len(data) elements with replacement""" 
return [random.choice(data) for _ in data] 
def bootstrap_statistic(data, stats_fn, num_samples): 
"""evaluates stats_fn on num_samples bootstrap samples from data"”"”" 
return [stats_fn(bootstrap_sample(data)) 
for _ in range(num_samples)] 


例如 ， 考 虑 下 列 两 个 数据 集 : 


# 101 个 点 都 非常 接近 160 


CLose_to_100 = [99.5 + random.random() for _ in range(101)] 





168 | 第 15 章 


# 101 个 点 钟 ,50 个 接近 9,50 个 接近 200 
far_from 100 = ([99.5 + random.random()] + 
[random.random() for _ in range(50)] + 
[200 + random.random() for _ ;in range(50)]) 

















如 果 你 计算 每 个 数据 集 的 中 位 数 ， 会 发 现 它们 都 非常 接近 100。 然 而 ， 如 果 你 考察 下 面 的 
语句 : 


bootstrap_statistic(close_to_100, median, 100) 

大 部 分 情况 下 你 看 到 的 数字 确实 非常 接近 100。 然 而 ， 如 果 你 考察 下 面 的 语句 : 
bootstrap_statistic(far_from 100, median, 100) 

你 会 发 现 ， 不 仅 有 许多 数字 接近 0， 而 且 还 有 许多 数字 接近 200。 


第 一 组 中 位 数 的 standard_deviation 接近 0， 而 第 二 组 中 位 数 的 standard_deviation 接近 
100。( 这 种 极端 的 情况 通过 人 工 检查 数据 很 容易 和 弄 清楚 ， 但 一 般 情 况 下 都 不 是 真 的 。) 


15.7 回归 系数 的 标准 误 
我 们 可 以 采用 同样 的 方法 来 估计 回归 系数 的 标准 误差 。 我 们 可 以 对 数据 重复 采用 
bootstrap_sample 样本 ， 并 根据 这 些 样本 估算 beta。 如 果 某 个 自 变 量 (如 num_friends ) 
的 系数 在 各 个 样本 上 变化 不 大 ， 那 么 就 可 以 确信 我 们 的 估计 是 比较 严密 的 。 如 果 这 个 系数 
随 着 样本 的 不 同 而 起 伏 较 大 ， 那 么 我 们 就 不 能 完全 相信 我 们 的 估计 。 

唯一 需要 说 明 的 是 ， 采 样 前 ， 我 们 需要 把 数据 X 和 数据 Y 放 到 一 起 (用 zip)， 以 确保 对 自 


变量 和 因 变 量 一 起 进行 采样 。 这 就 意味 着 bootstrap_sample 将 返回 一 个 由 (x_i，y_i) 数据 
对 组 成 的 列表 ， 因 此 我 们 需要 将 其 重新 组 合成 一 个 x_sample 和 一 个 y_sample: 









































def estimate_sample_beta(sample): 
"""sample is a list of pairs (Xx_i, y_i)""" 
x_sample,，y_sample = zip(*sample) # 魔法 般 的 解压 方式 
return estimate_ beta(x_sample, y_sample) 


random.seed(9) # 所 以 你 得 到 的 结果 与 我 的 一 样 
bootstrap_betas = bootstrap_statistic(zip(x, daily_minutes_good), 


estimate_sample_beta, 
100) 


之 后 ， 我 们 就 可 以 估算 每 个 系数 的 标准 偏差 了 : 
bootstrap_standard_errors = [ 
standard_deviation([beta[i] for beta in bootstrap_betas]) 


for i in range(4)] 


# [1.174， # 常数 项 ， 实际 误差 = 1.19 
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# 0.079， # num_friends， 实际 误差 = 0.080 
# 0.131， # UnempLoyed， ”实际 误差 = 0.127 
# 0.990]  # phd, 实际 误差 = 0.998 


我 们 可 以 使 用 它们 来 检验 诸如 “8 等 于 0 吗 ? ”之 类 的 假设 。 在 满足 6=0 (以 及 与 &; 分 布 
有 关 的 其 他 假设 ) 的 条 件 下 ， 则 有 : 


人 =p,/6, 
也 就 是 说 ， 这 个 统计 量 等 于 我 们 估算 的 p 除 以 估算 的 其 标准 误差 ， 它 符合 具有“n-k 个 自 
由 度 ” 的 学 生 的 t+ 分 布 (Student’s tdistribution ) 。 





如 果 我 们 有 一 个 students_t_cdf 函数 ， 那 么 就 可 以 计算 每 个 最 小 二 乘 系数 的 p 值 ， 从 而 指 
出 实际 的 系数 为 0 时 观察 到 这 个 值 的 可 能 性 有 多 大 。 令 人 遗憾 的 是 ， 实 际 上 我 们 没有 这 样 
的 函数 。( 虽 然 我 们 不 想 从 头 做 起 。) 


然而 ， 随 着 自由 度 变 大 ，t 分布 越 接近 标准 正 态 分 布 。 在 这 种 情况 下 ， 即 n 比 k 大 得 多 的 
情况 下 ， 我 们 便 可 以 使 用 normat_cdf 了 ， 并 且 我 们 觉得 它 效果 还 不 错 : 


def p_value(beta_hat_j, sigma_hat_j): 
if beta_ hat _j > 0: 
# 如 果 系 数 是 正 的 , 则 我 们 需要 对 
# 看 见 一 个 更 大 的 值 的 概率 做 两 次 计算 
return 2 * (1 - normal_cdf(beta_hat_j / sigma_hat_j)) 
else: 
# 否则 看 见 一 个 更 小 值 的 概率 乘 以 2 
return 2 * normaL_cdf(beta_hat_j / sigma_hat_j) 


p_value(30.63, 1.174) # ~0 (常数 项 ) 
p_value(0.972, 0.079) # ~0 (num_friends) 
p_value(-1.868, 0.131) # ~0 (work_hours) 
p_value(0.911, 0.990) # 0.36 (phd) 





(在 其 他 情况 下 ， 我 们 很 可 能 会 使 用 一 个 知道 如 何 计算 1 分 布 和 精确 的 标准 误差 的 统计 
软件 。) 


虽然 大 多 数 系数 的 p 值 都 非常 小 (但 非 0 值 ), 但 是 “博士 学 位 ”的 系数 与 零 没 有 “显著 ” 
区 别 ， 也 就 是 说 “博士 学 位 ”的 系数 很 可 能 是 随机 的 ， 无 意义 的 。 


在 对 回归 分 析 要 求 更 加 精细 的 情形 下 ， 你 可 能 需要 对 数据 的 各 种 假设 进行 更 加 细致 的 测 
试 ， 比 如 “至 少 有 一 个 是 非 0 值 ", 或 者 “pi 等 于 pp, 且 ps 等 于 pi ”等 ,以 便 进行 FP 测 
试 ， 但 是 这 些 内 容 已 经 超出 了 本 书 的 讨论 范围 。 


15.8 正则 化 


在 实践 中 ， 线 性 回归 经 常 需要 处 理 具 有 很 多 变量 的 数据 集 ， 这 时 就 需要 用 到 另外 两 个 技 
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网 首先 ， 涉 及 的 变量 越 多 ， 模 型 越 容易 对 训练 集 产 生 过 拟 合 现象 。 其 次 ， 非 零 系 数 越 


稀 


正则 
们 开 


例如 ， 
罚 项 。 


之 后 


如 果 


随 着 





， 越 难以 搞 清 楚 它 们 的 意义 。 如 果 我 们 的 目标 是 解释 某 些 现象 ， 一 个 只 考虑 三 方面 

















玻 型 模型 通常 要 比 涉及 数 百 个 因素 的 模型 要 更 好 一 些 


化 是 指 给 误差 项 添加 一 个 惩罚 项 ， 并 且 该 惩罚 项 会 随 着 beta 的 增 大 而 增 大 。 然 











i 因素 





后 , 我 


始 设法 将 误差 项 和 惩罚 项 的 组 合 值 最 小 化 。 因 此 ， 惩 罚 项 越 大 ， 就 越 能 防止 系数 过 大 。 





(当然 ， 我 们 一 般 不 会 惩罚 beta_0， 因 为 它 是 个 常数 项 。) 








# alpha 是 一 个 * 超 参数 *, 用 来 控制 惩罚 的 程度 
# 它 有 时 被 叫 作 "Lambda" ,但 这 在 Python 中 另 有 所 指 
def ridge_penalty(beta, alpha): 

return alpha * dot(beta[1:], beta[1:]) 














def squared_error_ridge(x_i, y_i, beta, alpha): 
"""estimate error plus ridge penalty on beta 
return error(x_ i, y i, beta) ** 2 + ridge_ penalty(beta, alpha) 


mam 


你 可 以 按 通 常 的 方法 插入 梯度 下 降 : 


def ridge_ penalty_gradient(beta, alpha): 
"""gradient of just the ridge penalty 
return [0] + [2 * alpha * beta j for beta j in beta[1:]] 


mmm 


def squared_error_ridge gradient(x_ i, y_i, beta, alpha): 
"""the gradient corresponding to the ith squared error term 
including the ridge penalty""”" 
return vector_add(squared_error_gradient(x_i, y_ i, beta), 
ridge_penalty_gradient(beta, alpha)) 


def estimate beta_ridge(x, y, alpha): 
"""use gradient descent to fit a ridge regression 
with penalty alpha”"”"”" 
beta_initial = [random.random() for xi in x[0]] 
return minimize_stochastic(partial(squared_error_ridge, alpha=alpha), 
partial(squared error_ridge gradient, 
alpha=alpha),， 
X，y， 
beta_initial, 
0.001) 





令 alpha 为 0， 则 根本 不 会 实施 任何 惩罚 ， 这 时 得 到 的 结果 跟前 面 一 样 : 














random.seed(0) 

beta 0 = estimate beta_ridge(x, daily_minutes_good, alpha=0.0) 
# [30.6, 0.97, -1.87, 0.91] 

dot(beta_0[1:], beta_0[1:]) # 5.26 

multiple_r_squared(x, daily_minutes_ good, beta 0) # 0.680 


alpha 的 增 大 ， 拟 合 优 度 会 变 差 .， 但 是 beta 会 变 小 : 


在 岭 回 归 (ridge regression) 中 ， 我 们 添加 了 一 个 与 beta_i 的 平方 之 和 成 正比 的 惩 
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beta 0 01 = estimate beta ridge(x, daily_minutes good, alpha=0.01) 
# [30.6, 0.97, -1.86, 0.89] 

dot(beta 0_01[1:], beta 0 01[1:]) # 5.19 

multiple_r_squared(x, daily_minutes_good, beta 0 01) # 0.680 


beta 0_1 = estimate beta_ridge(x, daily_minutes_good, alpha=0.1) 
# [30.8, 0.95, -1.84, 0.54] 

dot(beta 0_1[1:], beta 0 1[1:]) # 4.60 

multiple_r_squared(x, daily_minutes good, beta 0 _ 1) # 0.680 


beta_1 = estimate beta_ridge(x, daily_minutes_good, alpha=1) 
# [30.7, 0.90, -1.69, 0.085] 

dot(beta_1[1:], beta 1[1:]) # 3.69 

multiple_r_squared(x, daily _ minutes good, beta 1) # 0.676 


beta_10 = estimate beta_ridge(x, daily_minutes_good, alpha=10) 
# [28.3, 0.72, -0.91, -0.017] 

dot(beta_10[1:], beta_10[1:]) # 1.36 

multiple_r_squared(x, daily minutes good, beta 10) # 0.573 




















特别 地 ， 随 着 惩罚 项 的 增 大 ,“ 博 士 学 位 ”的 系数 会 变 成 0， 这 与 我 们 之 前 的 结果 是 一 致 
的 ， 即 它 与 0 没有 显著 区 别 。 


在 利用 这 个 方法 之 前 ， 通 常 需要 调整 数据 的 规模 。 因 为 即使 是 同一 个 模型 ， 
如 果 将 几 年 数据 一 下 变 为 几 百 年 的 数据 ， 那 么 它 的 最 小 二 乘法 系数 就 会 增加 
上 百倍 ， 那 样 得 到 的 惩罚 肯定 也 会 又 增 。 














还 有 一 个 方法 是 lasso 回归 ， 它 用 的 惩罚 方式 如 下 所 示 : 


def lasso_penalty(beta, alpha): 
return alpha * sum(abs(beta i) for beta i in beta[1:]) 


总 的 说 来 ， 岭 回归 的 惩罚 项 会 缩小 系数 ， 但 是 ，lasso : 罚 项 却 趋向 于 迫使 系数 变 为 0 
值 ， 这 使 得 它 更 适 于 学 习 稀 玻 模型 。 令 人 遗憾 的 是 ， 它 不 适用 于 梯度 下 降 法 ， 这 意味 着 我 
们 将 无 法 从 头 开始 解决 这 个 问题 


15.9 延伸 学 习 





回归 分 析 具 有 深厚 而 广阔 的 理论 背景 。 要 想 了 解 这 些 背 景 理 论 ， 你 需要 阅读 相应 的 教科 
书 ， 至 少 也 得 阅读 大 量 的 维基 百科 文章 。 

scikit-learn 的 linear_model 模块 (http://scikit-learn.org/ stable/modules/linear_model.htm]l) 
提供 了 一 个 LinearRegression 模型 ， 它 跟 我 们 的 模型 颇 为 相近 。 此 外 ， 它 还 提供 了 
Ridge 回归 和 Lasso 回归 ， 以 及 其 他 类 型 的 正则 化 算法 。 

另 一 个 相关 的 Python 模块 是 Statsmodels (http://statsmodels.sourceforge.net/) ， 它 也 包含 
了 线性 回归 模型 及 许多 其 他 内 容 。 
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逻辑 回归 


许多 人 说 ， 天 才 和 疯子 之 间 只 有 一 线 之 隔 。 但 是 我 却 认为 ， 那 不 是 一 线 之 隔 ， 而 是 天 渊 之 别 。 


一 一 比尔 有 幢 利 

















我 们 将 进一步 考察 这 个 问题 。 


16.1 问题 


在 第 工 章 中 ， 我 们 简单 介绍 了 如 何 预测 哪些 DataSciencester 用 户 会 成 为 付费 用 户 。 下 寿 


和 


我 们 有 一 个 200 人 的 匿名 数据 集 ， 内 容 包 括 每 个 用 户 的 工资 、 作 为 数据 科学 家 的 工作 年 限 
以 及 是 否 愿 意 成 为 付费 用 户 (图 16-1)。 像 往常 一 样 ， 对 于 类 别 型 变量 ， 它 们 的 取 值 要 么 





是 0 ( 非 付 费用 户 )， 要 么 是 1 (付费 用 户 )。 


像 往 常 一 样 ， 我 们 的 数据 都 是 存放 到 和 矩阵 中 的 ， 其 中 每 一 行 都 是 一 个 列表 [experience， 


salary，paid_account]。 下 面 ， 我 们 将 其 转换 成 所 需要 的 格式 .: 


x = [[1] + row[:2] for row in data] # 每 个 元 素 都 是 [1，experience，salary] 
y = [row[2] for row ;in data] # 每 个 元 素 都 是 一 个 付费 用 户 








很 明显 ， 第 一 步 是 使 用 线性 回归 来 寻找 最 佳 模型 ; 


paid account = fo + piexperience + psalary + 2 
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付费 用 户 和 非 付费 用 户 
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16-1: 付费 用 户 和 非 付费 用 户 
当然 ， 在 利用 这 种 方式 对 这 个 问题 进行 建 模 方面 ， 我 们 已 经 轻车熟路 了 。 

















结果 如 图 16-2 所 示 : 


rescaled x = rescale(x) 
beta = estimate_ beta(rescaled x, y) # [0.26, 0.43, -0.43] 
predictions = [predict(x_i, beta) for x_i in rescaled_x] 


plt.scatter(predictions, y) 
plt.xlabel("predicted") 
plt.ylabel("actual") 

plt. show() 
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图 16-2: 使 用 线性 回归 预测 付费 用 户 
但 这 种 方法 会 导致 两 个 紧密 相关 的 问题 。 


。 我 们 希望 输出 结果 为 0 或 者 1， 用 来 表明 会 员 资 格 类 型 。 如 果 输 出 值 介 于 0 和 1 之 间 的 
话 ， 那 也 很 好 ， 因 为 我 们 可 以 将 其 解读 为 概率 一 一 如 果 输 出 值 是 0.25， 可 以 表示 成 为 付 
费 会 员 的 可 能 性 为 25%。 但 是 ， 线 性 模型 的 输出 值 有 时 候 会 是 非常 大 的 正 数 乃至 负数 ， 
这 时 候 就 不 好 解释 了 。 实 际 上 ， 这 个 例子 中 许多 预测 值 是 负数 。 

。 线性 回归 模型 假定 x 的 各 列 与 误差 不 相关 。 但 是 这 里 experience 一 列 的 回归 系数 为 0.43， 
也 就 是 说 ， 数 据 科 学 家 生涯 越 长， 就 越 有 可 能 成 为 付费 用 户 。 这 意味 着 对 于 职业 生涯 较 
长 的 人 ， 模 型 会 输出 一 个 很 大 的 数值 。 但 是 我 们 都 知道 ， 有 效 值 最 大 只 能 到 1， 也 就 是 
说 输出 值 越 大 ( 即 数据 科学 家 生涯 越 长 ) ,对 应 的 误差 项 的 负 值 也 就 越 大 。 由 于 这 个 原因 ， 
我 们 对 beta 的 估计 是 有 偏 的 。 

相反 ， 我 们 期 望 的 情况 是 这 样 的 : 如 果 dot(x_i，beta) 的 输出 值 是 较 大 的 正 数 ， 那 么 让 

它 对 应 的 概率 接近 1， 如 果 输 出 值 是 一 个 较 大 的 负数 ， 那 么 让 它 对 应 的 概率 接近 0。 为 此 ， 

我 们 可 以 应 用 另 一 个 函数 来 实现 这 种 效果 。 












































逻辑 回归 | 175 


16.2 Logistic 函 数 
对 于 逻辑 回归 来 说 ， 我 们 需要 用 到 Logistic 函数 ， 其 图 像 如 图 16-3 所 示 : 




















def logistic(x): 
return 1.0 / (1 + math.exp(-x)) 
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图 16-3: Logistic 函数 
随 着 输入 的 数字 变 大 且 符 号 为 正 ， 它 的 输出 就 会 越 来 越 接近 1。 随 着 输入 的 数字 变 大 且 符 
号 为 负 ， 它 的 输出 就 会 越 来 越 接 近 0。 此 外 ， 这 个 国 数 还 有 一 个 非常 好 的 属性 ， 即 其 导 ; 

可 以 通过 下 列 代码 简单 求 出 : 





def logistic prime(x): 
return logistic(x) * (1 - logistic(x)) 


这 一 点 可 以 用 于 拟 合 模型 ; 


yf A) + 





其 中 ,， /表示 togistic 函数 。 
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回想 一 下 ， 对 于 线性 回归 来 说 ， 我 们 是 通过 最 小 化 误差 的 平方 之 和 的 方式 来 拟 合 模型 ， 最 
终 选 出 令 得 到 这 些 观 测 数 据 的 可 能 性 最 大 的 p。 


但 是 ， 这 里 两 者 并 不 是 等 价 的 ， 所 以 我 们 直接 使 用 梯度 下 降 法 来 最 大 化 似 然 。 也 就 是 说 ， 
我 们 需要 计算 似 然 函数 及 其 梯度 。 


已 知 8， 我 们 的 模型 指出 每 个 y 等 于 1 的 概率 为 1(6)， 等 于 0 的 概率 为 1-/ Gp)。 
特别 是 ，y; 的 概率 密度 函数 为 : 











pO NXPB)=7BY -fxP) 了 
如 果 y 为 0， 则 这 等 同 于 : 


1 (Xp) 

















JJ) 
事实 表明 ， 最 大 化 对 数 似 然 要 更 加 简单 一 些 : 





logL(Bl%,y,)= ylogf (PB)+(1-y)log( -f(xp)) 


由 于 对 数 函 数 是 单调 递增 函数 ， 所 以 任何 能 够 最 大 化 对 数 似 然 函数 的 beta 必然 也 能 最 大 化 
似 然 国 数 ， 反 之 亦 然 。 
def logistic log likelihood i(x i, y i, beta): 
if yi == 1: 
return math.log(logistic(dot(x_i., beta))) 


else: 
return math.Log(1 - logistic(dot(x_i, beta))) 


如 果 我 们 假设 各 个 数据 点 之 间 相 互 独立 ， 那 么 整体 的 似 然 就 是 各 个 似 然 之 积 。 换 名 话说 ， 
整体 的 对 数 似 然 就 是 各 个 对 数 似 然 之 和 |: 
def logistic log_ likelihood(x, y, beta): 


return sum(logistic log_likelihood i(x_i, y i, beta) 
for x_i, yi in zip(x, y)) 


利用 少许 微 积分 知识 ， 我 们 就 能 求 出 梯度 了 : 
def logistic log partial ij(x_i, y_ i, beta, j): 
"""here i is the index of the data point, 
了 the index of the derivative""”" 


return (y_i - logistic(dot(x_i., beta))) * x_i[j] 


def logistic log gradient i(x_i, y i, beta): 
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"""the gradient of the log likelihood 
corresponding to the ith data point""”" 


return [logistic log partial ij(x_i, y_i, beta, j) 
for j，_ in enumerate(beta)] 
def logistic log_gradient(x, y, beta): 
return reduce(vector_add, 
[logistic log gradient i(x i, y i, beta) 
for x_ i, y i in zip(x,y)]) 





好 了 ， 到 此 为 止 我 们 已 经 万 事 俱 备 了 。 


16.3 ”应 用 模型 


现在 我 们 要 将 数据 分 为 一 个 训练 集 和 一 个 测试 集 : 











random. seed(0) 
x_train, x_test, y_train, y_test = train test_split(rescaled x, y, 0.33) 


# 希望 在 训练 数据 集 上 最 大 化 对 数 似 然 
fn = partial(logistic log likelihood, x_train, y_train) 
gradient_ fn = partial(logistic log gradient, x_train, y_train) 


# 选取 一 个 随机 起 始点 


beta 0 = [random.random() for _ in range(3)] 








# 使 用 梯度 下 降 法 实现 最 大 化 


beta_hat = maximize batch(fn, gradient_fn, beta_0) 











另外 ， 你 也 可 以 使 用 随机 梯度 下 降 法 : 
beta_hat = maximize_stochastic(logistic log_likelihood i, 


logistic log gradient i, 
x_train, y_train, beta_0) 


无 论 使 用 哪 种 方式 ， 我 们 都 能 得 到 大 致 如 下 的 结果 : 
beta_hat = [-1.90, 4.05, -3.87] 
这 些 数据 是 按照 某 些 系数 转换 过 来 的 ， 不 过 ， 我 们 还 可 以 将 其 转换 为 原始 数据 ; 


beta_hat_unscaled = [7.61, 1.42, -0.000249] 





令 人 遗憾 的 是 ， 这 些 系 数 不 如 线性 回归 系数 那样 易于 解释 。 在 其 他 条 件 都 相同 的 情况 下 ， 
工作 年 限 每 增加 一 年 ，logistic 的 输入 就 会 增加 1.42。 在 其 他 条 件 都 相同 的 情况 下 ， 年 新 
每 增加 10 000 美元 ，logistic 的 输入 就 会 减 去 2.49。 





然而 ， 输 出 的 结果 还 会 受到 其 他 输入 数据 的 影响 。 如 果 dot (beta，x_i) 的 值 已 经 很 大 了 
(相当 于 概率 接近 1)， 那 么 即使 再 增加 的 话 ， 对 概率 也 没有 多 大 的 影响 了 。 如 果 它 接近 0， 
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那么 即使 稍微 增加 一 点 ， 对 概率 也 会 产生 明显 的 影响 。 


也 就 是 说 ， 在 其 他 条 件 相 同 的 情况 下 ， 工 作 年 限 越 多 的 人 越 有 可 能 成 为 付费 用 户 。 同 时 ， 
其 他 条 件 相同 的 情况 下 ， 年 薪 越 高 的 人 越 不 可 能 成 为 付费 用 户 。( 当 我 们 将 数据 绘 成 图 表 
的 时 候 ， 这 一 点 就 会 更 明显 ,) 


16.4 ” 拟 合 优 度 
目前 为 止 ， 我 们 还 没有 使 用 留 出 来 的 测试 数据 。 下 面 来 看 看 ， 如 果 我 们 预测 成 为 付费 用 户 
的 概率 大 于 0.5 的 话 会 发 生 什么 : 
























































true_positives = false positives = true negatives = false negatives = 0 


for x_i, y i in zip(x_test, y_test): 
predict = logistic(dot(beta_hat, x_i)) 





























if y_i == 1 and predict >= 0.5: # TP: 是 付费 用 户 , 且 我 们 预测 为 是 
true_positives += 1 

elif yi == 1: # FN: 是 付费 用 户 , 且 我 们 预测 为 否 
false_negatives += 1 

elif predict >= 0.5: # FP: 韭 付费 用 户 , 且 我 们 预测 为 是 
false_positives += 1 

else: # TN: 非 付 费用 户 , 且 我 们 预测 为 否 





true_negatives += 1 


precision = true positives / (true positives + false_positives) 
recall = true_positives / (true_positives + false_negatives) 


这 里 的 查 准 率 为 93% ( 即 每 预测 100 次 有 93 次 是 正确 的 ) ， 查 全 率 为 82% ( 即 每 100 个 付 
费用 户 中 ， 我 们 能 够 预测 出 82 个 人 )， 这 两 项 指标 都 相当 不 错 。 


在 图 16-4 中 ， 我 们 给 出 了 系统 的 预测 值 与 实际 值 的 比较 情况 ， 图 中 表明 该 模型 的 表现 非 
常 好 : 








predictions = [logistic(dot(beta hat, x_i)) for x_i in x_test] 
plt.scatter(predictions, y_test) 

plt.xlabel("predicted probability") 

plt.ylabel("actual outcome") 

plt.title("Logistic Regression Predicted vs. Actual") 
plt.show() 
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逻辑 回归 的 预测 值 与 实际 值 





1.2 


1.0 


0.8 


0.6 


0.4 


0.2 


0.0 


一 0.2 
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 


预测 的 概率 








16-4: 逻辑 回归 的 预测 值 与 实际 值 


16.5 支持 回 量 机 


Dot(beta_hat，x_i) 等 于 0 的 点 就 是 我 们 的 分 类 边界 线 ， 具 体 如 图 16-5 所 示 。 














这 个 边界 实际 上 就 是 一 个 超 平 面 (hyperplane)， 将 参数 空间 一 分 为 二 ,一 半 对 应 着 预测 为 
付费 用 户 ， 一 半 对 应 着 预测 为 非 付费 用 户 。 我 们 发 现 ， 这 个 预测 只 是 寻找 最 优 逻 辑 模型 过 
程 中 的 一 个 副产品 而 已 。 
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逻辑 回归 判定 边 
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图 16-5: 付费 用 户 和 非 付费 用 户 的 判定 边界 








另外 ， 还 有 一 种 分 类 方法 ， 即 寻找 的 超 平面 只 要 对 训练 数据 的 分 类 效果 “最 佳 ” 即 可 。 这 











实际 上 就 是 支持 向 量 机 (support vector machine) 思想 ， 
的 距离 最 大 化 的 超 平 面 ， 如 图 16-6 所 示 。 





即 寻 找 将 距离 每 个 类 别 中 的 最 近 点 
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分 类 超 平面 














16-6: 分 类 超 平面 

寻找 这 种 超 平面 的 过 程 就 是 一 个 最 优化 的 过 程 ， 不 过 这 里 面 所 涉及 的 技术 对 我 们 来 说 太 复 
杂 了 。 另 外 一 个 不 同 的 问题 是 ， 分 类 超 平面 也 许 根 本 就 不 存在 。 简 单 来 说 ， 就 是 在 我 们 的 
“ 谁 会 付费 ? ”的 数据 集中 ， 没 有 能 够 把 付费 用 户 和 非 付 费用 户 完 美 分 隔 的 直线 。 

我 们 (有 了 时) 可 以 考虑 把 数据 映射 到 一 个 更 高 维 的 空间 中 。 例 如 ， 我 们 先 看 图 16-7 所 示 的 
一 维 数据 集 的 情形 。 
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16-7: 无 法 分 隔 的 一 维 空间 数据 集 


很 明显 ， 没 有 一 个 超 平面 能 够 将 这 些 正 样本 与 负 样本 分 隔 开 来 。 但 是 ， 如 果 通 过 把 x 替换 
为 (x，xxx2) 来 将 数据 集 映 射 到 一 个 二 维 空间 ， 我 们 看 一 下 情况 会 有 什么 变化 。 情 况 突 然 
出 现 了 转机 : 我 们 能 够 找 出 分 隔 数 据 的 超 平面 了 ， 如 图 16-8 所 示 。 

这 通常 称 为 核 方法 (kernel trick) ， 因 为 不 用 真 的 把 数据 点 映射 到 更 高 维 的 空间 (如 果 数 据 
数量 较 多 并 且 映 射 复 杂 的 话 ， 这 个 过 程 的 代价 将 会 很 大 )， 相 反 ， 我 们 可 以 使 用 “ 核 ” 函 
数 来 计算 更 高 维 空间 中 的 点 积 ， 并 用 它们 来 找 出 超 平面 。 
如 果 不 借助 于 专业 人 士 编 写 的 专门 的 优化 软件 的 话 ， 我 们 会 很 难 (并 且 也 不 一 定 是 一 个 好 
主意 ) 利用 支持 向 量 机 ， 因 此 ， 我 们 对 它 的 介绍 到 此 为 止 。 
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16-8: 在 更 高 维 空间 中 数据 变 为 可 分 隔 的 


16.6 ”延伸 学 习 


。 scikit-learn 库 同 时 提供 了 逻辑 回 





归 (http://scikit-learn.org/stable/modules/linear_model. 


html#logistic-regression) 和 支持 向 量 机 (http://scikit-learn.org/stable/modules/svm.html) 
的 相关 模块 。 

。 scikit-learn 实际 上 是 利用 libsvm (http://www.csie.ntu.edu.tw/~cjlin/libsvm/) 来 实现 的 支 
持 向 量 机 。 甚 网 站 上 提供 了 许多 支持 向 量 机 方面 的 优秀 资料 。 
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决策 树 


每 一 棵 树 都 是 一 个 解 不 开 的 谜 。 
一 一 吉姆 :伍德 林 


假设 DataSciencester 人 力 副 总 通过 网 站 召集 了 许多 求职 者 ， 并 面试 了 他 们 ， 当 然 ， 对 他 们 
的 满意 程度 各 不 相同 。 他 还 收集 了 一 组 数据 ， 其 中 包括 每 个 求职 者 的 各 种 (定性 的 ) 特质 


以 及 面试 表现 情况 。 





现在 他 向 你 咨询 : 能 否 用 这 些 数据 建立 一 个 模型 ， 从 而 识别 出 哪些 应 








聘 者 能 够 通过 再 








ij 试 ? 如 果 可 以 的 话 ， 那 就 不 必 浪 费时 间 进 行 面 试 了 。 








这 个 问题 看 起 来 非常 适合 利用 决策 树 (decision tree) 来 解决 。 所 谓 决 策 树 ， 是 数据 科学 家 


工具 箱 中 的 另 一 


种 预测 建 模 工具 。 


17.1 什么 是 决策 树 


决策 树 通过 树 


结构 来 表示 各 种 可 能 的 决策 路 径 (decision path) ， 以 及 每 个 路 径 的 结果 。 

















如 果 你 之 前 玩 过 二 十 问 (Twenty Questions，https://en.wikipedia.org/wiki/Twenty_Questions) 


这 个 游戏 的 话 ， 


那么 你 早 就 熟悉 决策 树 了 ， 举 例 来 说 : 


。 “我 在 猜 一 种 动物 。 
。“ 它 有 五 条 以 上 的 腿 吗 ?“ 


“ 否 。” 
“好 吃 吗 ? ” 
二 “ 否 。” 
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Se 











否 出 现在 澳大利亚 五 分 硬币 的 背面 


针 虎 吗 ?” 
。“ 对 ,， 正 是 ! ” 





下 面 是 相应 的 判断 路 径 。 


“不 超过 5 条 腿 ” 一 “不 好 吃 ” 一 “出 现在 5 分 硬币 上 ”一 “ 针 腿 ! ”这 就 是 一 棵 特殊 的 
(而 不 是 非常 宽泛 的 )“ 猿 动物 ”的 决策 树 ， 如 图 17-1 所 示 。 


是 否 有 5 条 
以 上 的 腿 ? 是 
是 否 藏 在 你 

















芭 

















否 是 否 ,是 
是 否 出 现在 是 否 
澳大利亚 五 分 cat) 《 夏 治 特 的 网 》 
硬币 的 背面 ? 的 主角 ? 的 主角 ? 
否 否 


目 
= 


A E 大 旺 本 二 宣 


17-1:“ 猜 动物 ”决策 树 


决策 树 不 仅 能 够 提供 很 多 建议 ， 并 且 非 常 易 于 理解 和 解释 ， 同 时 ， 进 行 推断 的 过 程 还 是 
全 透明 的 。 与 本 书 前 面 介绍 的 模型 不 同 ， 决 策 树 不 仅 可 以 轻松 处 理 混 合 在 一 起 的 数值 属性 
(例如 腿 数 ) 和 条 件 属性 〈 例 如 好 吃 /不 好 吃 )， 甚 至 还 可 以 对 缺失 属性 的 数据 进行 分 类 。 



































不 过 ， 要 想 利用 一 组 训练 数据 找 出 “最 优 ” 决 策 树 却 是 一 个 非常 艰巨 的 计算 问题 。( 考 虑 
到 计算 量 的 问题 ， 我 们 这 里 要 建立 的 是 一 棵 足够 好 的 决策 树 ， 而 非 最 优 决策 树 。 即 便 如 
此 ， 当 数据 集 变 大 时 ， 计 算 量 仍旧 会 面临 挑战 。) 更 重要 的 是 ， 建 立 决策 树 模型 时 非常 容 
易 出 现 对 训练 数据 的 严重 过 拟 合 现象 ， 从 而 导致 模型 对 于 未 曾 见 过 的 数据 的 效果 大 打折 
扣 。 关 于 这 个 问题 ， 我 们 将 设法 加 以 解决 。 
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大 多 数 人 都 将 决策 树 分 为 分 类 决策 树 (classification tree， 它 输出 的 是 判决 结果 ) 和 回归 决 
策 树 (regression tree， 它 输出 的 是 数值 结果 )。 本 章 我 们 将 重点 介绍 分 类 决策 树 ， 同 时 还 
通过 ID3 算法 根据 已 标记 的 数据 集 来 确定 决策 树 ， 这 将 有 助 于 我 们 理解 决策 树 的 实际 运 
行 机 制 。 为 简单 起 见 ， 我 们 只 探讨 仅 有 两 个 输出 结果 的 问题 ， 如 “我 该 不 该 雇用 这 个 应 聘 
者 ? ”“ 我 应 该 给 这 个 网 站 访问 者 展示 广告 A 还 是 广告 B ? ”或 者 “ 吃 了 从 办 公 室 冰箱 里 
发 现 的 这 些 食物 会 不 会 反胃 ? ” 





17.2 灶 


为 了 建立 一 个 决策 树 ， 我 们 需要 决定 提出 哪些 问题 ， 以 及 这 些 问 题 的 提问 顺序 。 树 的 每 个 
阶段 都 存在 一 些 不 确定 性 ， 其 中 有 些 不 确定 性 已 经 被 我 们 消除 ， 而 另 一 些 则 依旧 存在 。 当 
知道 该 动物 的 腿 不 超过 五 条 后 ， 我 们 就 已 经 排除 了 它 是 蝗虫 的 可 能 性 。 但 是 ， 这 并 没有 排 
除 它 是 鸭子 的 可 能 性 。 对 于 每 一 个 可 能 的 问题 ， 我 们 都 可 以 根据 其 答案 对 剩余 的 可 能 性 空 
间 做 进一步 分 割 。 
































理想 情况 下 ， 我 们 当然 愿意 选择 那些 具有 能 够 给 决策 树 的 预测 提供 更 多 信息 的 答案 的 问 
题 。 如 果 有 一 个 是 / 否 问 题 ， 并 且 答 案 为 “是 ”的 时 候 输出 为 True， 而 答案 为 “ 否 ” 的 时 
候 输 出 为 False (反之 亦 然 )， 那 么 这 样 的 问题 自然 是 我 们 的 首选 了 。 相 反 ， 如 果 一 个 是 / 
否 问题 的 答案 无 论 是 啥 都 不 能 为 预测 提供 新 信息 的 话 ， 那 么 它 就 不 是 一 个 好 的 选择 。 








我 们 用 粒 (entropy) 这 个 概念 来 指 代 “ 信 息 含 量 "， 此 外 ， 这 个 词 还 常用 来 表示 混乱 程度 。 
在 这 里 ， 我 们 用 它 来 表示 与 数据 相关 的 不 确定 性 。 

假设 我 们 有 一 个 数据 集 S， 每 个 数据 元 素 都 标明 了 所 属 的 类 别 ， 即 元 素 属 于 有 限 类 别 
Ci…, C, 中 的 一 种 。 如 有 果 所 有 数据 点 都 属于 同一 类 别 ， 那 么 也 就 不 存在 不 确定 性 了 ， 这 
就 属于 我 们 喜闻乐见 的 低 科 情形。 如果 数 据点 均匀 地 分 布 在 各 个 类 别 中 ， 那 么 不 确定 性 
就 较 大 ， 这 时 我 们 说 具有 较 大 的 和 。 


从 数学 的 角度 来 讲 ， 如 采 p; 表示 c 类 别 中 的 数据 所 占 的 比例 ， 那 么 可 以 把 灶 定 义 为 : 












































H(S)=-pilogxp1—**-pnlogp, 
按照 通常 的 约定 ，0log 0=0。 

















对 于 这 个 定义 ， 我 们 不 必 关 心 其 中 的 细 梳 末节 ， 只 要 明白 每 一 个 -pjlog, p; 项 都 是 非 负 的 ， 
并 且 当 p; 接 近 0 或 1 时 ， 炉 的 值 也 接近 0 (如 同 图 17-2 所 示 ) 即 可 。 
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图 17-2: -plog p 的 图 像 


这 就 意味 着 ， 当 每 一 个 p; 越 接近 0 或 1 时 ( 即 当 大 部 分 数据 都 属于 同一 个 类 别 时 )， 灶 就 
越 小 ， 当 许多 p, 不 接近 0 时 ( 即 当 数据 广泛 分 布 于 众多 类 别 中 时 )， 炉 就 越 大 。 这 正 是 我 
们 所 期 望 的 特性 。 








我 们 可 以 轻而易举 地 将 上 面 的 定义 编写 为 一 个 函数 : 


def entropy(class_probabilities): 
"""given a list of class probabilities, compute the entropy""”" 
return sum(-p * math.log(p, 2) 
for p in class_probabilities 


if p) # 忽略 零 可 能 性 





我 们 的 数据 点 是 由 一 对 (input，1Labet) 组 成 的 ， 这 就 意味 着 类 别 概率 需要 我 们 自己 来 计 
算 。 需 要 注意 的 是 ， 我 们 并 不 关心 标签 与 概率 之 间 的 关联 ， 我 们 只 在 乎 概率 本 身 : 











def class_probabilities(labels): 
total_count = len(labels) 
return [count / total_count 
for count in Counter(labels).values()] 


def data_entropy(labeled_data): 
labels = [label for _, label in LabetLed_data] 





probabilities = class_probabilities(labels) 
return entropy(probabilities) 


17.3 ”分割 之 灶 


迄今 为 止 ， 我 们 所 做 的 是 计算 单 组 标记 数据 的 糯 〈 即 “不 确定 性 )。 实 际 上 ， 决 策 树 每 前 
进一步 ， 都 要 提出 一 个 问题 ， 而 它 的 答案 会 把 数据 分 割 为 一 个 或 〈 更 可 能 的 情况 是 ) 多 个 
子 集 。 例 如 ,“ 是 否 有 五 条 以 上 的 甩 ? ”这 个 问题 能 够 把 动物 分 为 五 条 腿 以 上 的 〈 如 蜘蛛 ) 
和 非 五 条 腿 以 上 的 〈 如 针 喘 ) 。 





相应 地 ， 我 们 希望 通过 某 种 方法 对 数据 集 的 分 割 效果 来 表示 焙 。 对 于 某 个 划分 方法 ， 如 果 
得 到 的 子 集 的 炉 较 低 ( 即 确定 性 很 高 ) 的 话 ， 我 们 就 说 这 个 划分 方法 的 简 较 低 ， 反之， 如 
果 得 到 的 子 集 的 (数量 很 多 并 且 ) 炉 较 高 ( 即 不 确定 性 很 高 ) 的 话 ， 我 们 就 说 这 个 划分 方 
法 的 炳 较 高 。 





例如 ， 前 面 “ 澳 大 利 亚 五 分 硬币 ”就 是 一 个 非常 不 明智 (尽管 这 次 非常 幸运 ! ) 的 问题 ， 
因为 它 把 剩余 的 动物 分 为 5, ={ 针 跨 } 和 5,={ 针 喘 之 外 的 一 切 动物 } 两 个 子 集 ， 而 5, 这 
个 集合 不 仅 过 大 而 且 高 粹 。( 虽 然 5, 子 集 没 有 粒 它 只 能 代表 剩余 “类 别 ” 中 的 一 小 部 


分 #2 




















在 数学 上 ， 如 果 我 们 把 数据 集 8 划分 为 数据 子 集 5,…, 5,,， 各 个 子 集 相应 数据 量 所 占 比 例 
为 g,…, gw， 那 么 我 们 就 可 以 通过 如 下 加 权 和 的 形式 来 计算 这 次 划分 的 彤 ， 





H=q iH(S, + 3 +q,1(S,,) 
下 面 是 具体 的 实现 代码 : 


def partition entropy(subsets): 
"""find the entropy from this partition of data into subsets 
Subsets ts a list of lists of labeled data"”"”" 


total_count = sum(len(subset) for subset in subsets) 


return sum( data entropy(subset) * len(subset) / totaL_count 
for subset in subsets ) 


这 种 方法 的 一 个 问题 是 ， 通 过 具有 许多 不 同 的 值 的 属性 进行 数据 划分 的 话 ， 
往往 会 由 于 过 度 拟 合 而 导致 过 低 的 灶 。 例 如 ， 假 设 你 为 一 家 银行 工作 ， 并 尝 
试用 一 些 历史 数据 作为 训练 集 ， 建 立 一 个 决策 树 来 预测 哪些 客户 很 可 能 拖欠 
抵押 贷款 。 我 们 进一步 假设 数据 集 提供 了 每 个 客户 的 社会 保险 号 (SSN)。 如 
果 利 用 SSN 号 码 对 数据 集 进行 划分 ， 那 么 得 到 的 每 个 子 集 都 只 含有 一 个 人 
员 ， 这 样 的 话 它 们 的 炉 必定 为 0。 但 是 ， 这 个 依赖 于 SSN 号 码 的 模型 不 一 定 
适用 于 该 训练 集 之 外 的 数据 。 出 于 这 个 原因 ， 你 应 该 尽量 避免 使 用 (或 直接 
去 掉 ， 如 果 合 适 的 话 ) 有 大 量 的 可 能 取 值 的 属性 来 创建 决策 树 。 
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17.4 创建 决策 树 


副 总 为 你 提供 了 应 聘 者 的 相关 资料 ， 包 括 符合 你 的 数据 规范 的 (input，label) 对 ， 其 中 每 
个 输入 都 是 由 应 聘 者 的 各 种 属性 构成 的 一 个 字典 变量 ， 而 每 个 标签 的 取 值 要 么 为 True (该 
求职 者 面试 成 绩 很 好 ) ， 要 么 为 False (该 求职 者 面试 成 绩 很 差 )。 具 体 来 说 ， 数 据 为 你 提 
供 了 每 个 求职 者 的 得 分 情况 、 常 用 语言 、 在 Twitter 上 的 活跃 程度 以 及 是 否 拥有 博士 学 位 


等 信息 : 








inputs = [ 
({'level':'Senior', 'lang':'Java', 'tweets':'no', 'phd':'no'}, False), 
({'level':'Senior', 'lang':'Java', 'tweets':'no', 'phd':'yes'}, False), 
({'level':'Mid', 'lang':'Python', 'tweets':'no', 'phd':'no'}, True), 
({'level':'Junior', 'lang':'Python', 'tweets':'no', 'phd':'no'}, True)， 
({'level':'Junior', 'lang':'R', 'tweets':'yes', 'phd':'no'}, True), 
({'level':'Junior', 'lang':'R', 'tweets':'yes', 'phd':'yes'}, False), 
({'level':'Mid', 'lang':'R', 'tweets':'yes', 'phd':'yes'}, True), 
({'level':'Senior', 'lang':'Python', 'tweets':'no', 'phd':'no'}, False), 
({'level':'Senior', 'lang':'R', 'tweets':'yes', 'phd':'no'}, True), 


({'Llevel':'Junior', 'lang':'Python', 'tweets':'yes', 'phd':'no'}, True), 
({'level':'Senior', 'lang':'Python', 'tweets':'yes', 'phd':'yes'}, True), 
({'level':'Mid', 'lang':'Python', 'tweets':'no', 'phd':'yes'}, True), 
({'level':'Mid', 'lang':'Java', 'tweets':'yes', 'phd':'no'}, True), 
({'level':'Junior', 'lang':'Python', 'tweets':'no', 'phd':'yes'}, False) 


] 


我 们 的 决策 树 含 有 许多 决策 节点 〈 该 节点 会 提出 一 个 问题 ， 并 根据 问题 的 答案 来 指导 我 们 
下 一 步 如 何 走 ) 和 叶 节 点 〈 该 节点 为 我 们 提供 预测 结果 )。 我 们 将 使 用 较为 简单 的 ID3 算 
法 来 创建 决策 树 ， 有 具体 过 程 将 在 下 面 详细 介绍 。 假 设 我 们 得 到 了 一 些 标记 过 的 数据 ， 以 及 
一 个 用 来 选择 下 一 个 分 支 的 属性 列表 。 


。 如 果 所 有 数据 都 有 相同 的 标签 ， 那 么 创建 一 个 预测 最 终结 采 即 为 该 标签 所 示 的 叶 市 点 ， 
然后 停止 。 

。 如 果 属 性 列表 是 空 的 ( 即 已 经 没有 更 多 的 问题 可 提问 了 )， 就 创建 一 个 预测 结果 为 最 常 
见 的 标签 的 叶 节 点 ， 然 后 停止。 

。 否则 ， 洽 试用 每 个 属性 对 数据 进行 划分 。 

。 选择 具有 最 低 划分 灶 的 那 次 划分 的 结果 。 

。 根据 选 定 的 属性 添加 一 个 决策 市 点 。 

。 针对 划分 得 到 的 每 个 子 集 ， 利 用 剩余 属性 重复 上 述 过 程 。 


这 就 是 所 谓 的 “仿效 ”算法 ， 因 为 在 每 一 步 ， 它 都 会 选择 最 快 最 好 的 那 一 个 。 对 于 特定 的 
数据 集 ， 有 的 决策 树 在 开头 几 步 看 起 来 表现 不 佳 ， 但 最 终结 果 却 可 能 是 最 棒 的 。 如 果 是 这 
样 的 话 ， 这 个 算法 就 无 法 找到 这 样 的 决策 树 。 尽 管 如 此 ， 它 也 有 自己 的 优点 ， 即 相对 来 说 
还 是 很 容易 理解 和 实现 的 ， 所 以 ， 把 它 用 作 探 索 决 策 树 的 起 点 还 是 非常 不 错 的 。 
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下 面 让 我 们 以 手动 方式 在 应 聘 者 数据 集 上 完成 这 些 步 又 。 这 个 数据 集 具 有 True 和 False 两 
种 标签 ， 我 们 将 利用 4 个 属性 对 其 进行 分 类 。 因 此 ， 我 们 首先 要 做 的 就 是 找 出 粹 最 小 的 分 
荐 方法。 我们 将 通过 如 下 函数 来 完成 分 割 : 





























def partition_by(inputs, attribute): 
"""each input is a pair (attribute_dict, label). 
returns a dict : attribute value -> inputs""" 

groups = defaultdict(list) 

for input in inputs: 
key = ;input[0][attribute] # 得 到 特定 属性 的 值 
groups[key].append(input)  # 然后 把 这 个 输入 加 到 正确 的 列表 中 


return groups 
我 们 可 以 通过 下 列 代码 来 计算 业 : 


def partition_entropy_by(inputs, attribute): 
"""computes the entropy corresponding to the given partition 
partitions = partition_by(inputs, attribute) 
return partition_entropy(partitions.values()) 


mam 





然后 我 们 只 需要 找 出 在 整个 数据 集 上 具有 最 小 彤 的 分 割 即 可 : 


for key in ['level','lang','tweets','phd']: 
print key, partition_entropy_by(inputs, key) 


# level 0.693536138896 
# lang 0.860131712855 
# tweets 0.788450457308 
# phd 0.892158928262 


我 们 看 到 ， 利 用 level 进行 的 分 割 的 炉 最 小 ， 所 以 我 们 需要 为 每 一 个 可 能 的 level 值 建立 
一 个 子 树 。 所 有 id 应 聘 者 都 被 标记 成 了 True， 这 意味 着 Mid 子 树 是 一 个 叶 布 点 ， 其 预测 
结果 为 True。 对 于 Senior 级 别 的 求职 者 ， 甚 标签 既 有 True 也 有 False， 所 以 我 们 需要 进 一 
步 划 分 : 





senior_inputs = [(input, label) 
for input, label in inputs if input["level"] == "Senior"] 


for key in ['lang', 'tweets', 'phd']: 
print key, partition_entropy_by(senior_inputs, key) 


# lang 0.4 
# tweets 0.0 
# phd 0.950977500433 


这 表明 ， 我 们 下 一 步 应 该 根据 tweets 进行 分 割 ， 因 为 它 能 得 到 丧 为 0 的 分 割 。 对 于 Senior 


级 别 的 应 聘 者 ，tweets 的 值 为 “yes” 的 最 终 分 类 结果 为 True， 而 tweets 的 值 为 “no” 的 
最 终 分 类 结果 为 False。 
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最 后 ， 如 果 我 们 对 Junior 级 别 的 应 聘 者 做 同样 的 事情 ， 最 终 会 根据 属性 phd 进行 划分 ， 并 
且 发 现 没 有 博士 学 位 的 结果 都 是 True， 拥 有 博士 学 位 的 结果 都 是 False。 


level? 






































17-3 为 我 们 展示 了 完整 的 决策 树 。 











Senior Junior 











17-3: 招聘 决策 树 


17.5 ”综合 运用 
既然 我 们 已 经 知道 了 这 个 算法 的 工作 原理 ， 下 面 就 以 更 加 通用 的 方式 来 实现 这 个 算法 。 这 
意味 着 我 们 需要 决定 如 何 表示 决策 树 。 这 里 ， 我 们 将 尽 可 能 使 用 最 轻 量 化 的 表示 方法 。 我 
们 将 树 定义 为 下 列 情况 之 一 : 














。 True 
。 False 


。 元 组 (attribute, subtree_dict) 


这 里 的 True 代表 一 个 时节 点 ， 对 于 任何 输入 该 节点 都 会 返回 True; False 也 表示 一 个 叶 市 
点 ， 但 是 对 于 任何 输入 该 节点 都 会 返回 False;， 而 元 组 则 代表 一 个 决策 节点 ， 对 于 任何 输 
入 ， 该 节点 都 会 根据 attribute 的 值 利 用 相应 的 子 树 对 输入 进行 分 类 。 


使 用 这 种 方法 ， 我 们 的 招聘 决策 树 将 表示 如 下 : 











192 | 第 17 章 


('level', 

{'Junior': ('phd', {'no': True, 'yes': False}), 
'Mid': True， 
'Senior': ('tweets', {'no': False, 'yes': True})}) 


不 过 还 有 一 个 问题 需要 解决 ， 即 如 何 处 理 非 预期 的 属性 值 和 缺失 属性 值 的 情形 。 如 果 招 聘 
决策 树 遇 到 应 聘 者 的 level 属性 值 为 “Itern” 的 情况 ， 该 如 何 处 置 呢 ? 我 们 可 以 通过 添加 




















一 个 关键 字 None 来 处 理 这 种 情况 ， 这 时 只 要 把 预测 结果 设 为 最 常见 的 标签 即 可 。 


如 果 数 据 集中 实际 上 含有 None 这 个 值 的 话 ， 这 将 是 一 个 糟糕 的 主意 。) 
给 定 了 表示 方法 后 ， 我 们 就 可 以 对 输入 进行 分 类 了 ， 具 体 如 下 所 示 : 


def classify(tree, input): 
"""classify the input using the given decision tree 


mam 











# 如 果 这 是 一 个 叶 节 点 , 则 返回 其 值 
if tree in [True, Falsel]: 
return tree 








# 否则 这 个 树 冻 包含 一 个 需 要 划 分 的 属性 
# 和 一 个 字典 ,字典 的 键 是 那个 属性 的 值 
# 值 是 下 一 步 需 要 考虑 的 子 树 


attribute, subtree dict = tree 




















(当然 Nr 


subtree_key = input.get(attribute) # 如 果 输 入 的 是 缺失 的 属性 , 则 返回 None 


if subtree_key not ;in subtree_dict:  # 如 果 键 没有 子 树 
subtree_key = None # 则 需要 用 到 None 子 树 


subtree = subtree_dict[subtree_key] # 选择 恰当 的 子 树 
return classify(subtree, input) # 并 用 它 来 对 输入 分 类 


后 要 做 的 就 是 利用 训练 数据 建立 决策 树 的 具体 表示 形式 : 











def build tree id3(inputs, split_candidates=None): 


# 如 果 这 是 第 一 步 

# 第 一 次 输入 的 所 有 的 键 就 都 是 split candidates 

if split_ candidates is None: 
split _ candidates = inputs[0][0].keys() 


# 对 输入 里 的 True 和 False 计 数 

num_inputs = len(inputs) 

num_trues = len([label for item, label in inputs if LabeL]) 
num_falses = num_inputs - num_trues 























if num_trues == 0: return False # 若 没 有 True, 则 返回 一 个 "False" 叶 节点 
if num falses == 0: return True # 若 设 有 FaLse, 则 返回 一 个 "True" 叶 节点 
if not split_candidates: # 若 不 再 有 spLit candidates 





return num_trues >= num_falses # 则 返回 多 数 叶 节点 
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# 否则 在 最 好 的 属性 上 进行 划分 
best_attribute = min(split_ candidates, 
key=partial(partition_entropy_by, inputs)) 


partitions = partition by(inputs, best_attribute) 
new_candidates = [a for a in split_candidates 
if a != best_attribute] 


# 递归 地 创建 子 树 
subtrees = { attribute valuyue : buiLd_tree_id3(subset，new_candidates) 
for attribute_valuyue, subset in partitions.iteritems() } 


subtrees[None] = num_trues > num falses # 默认 情况 
return (best_attribute, subtrees) 
在 我 们 所 建 的 树 上 ， 每 一 个 时 节点 要 么 由 清一色 的 True 输入 组 成 ， 要 不 就 是 由 清一色 的 


False 输入 组 成 。 这 意味 着 ， 该 决策 树 对 于 这 个 训练 数据 集 的 预测 效果 堪 称 完美 。 但 我 们 
也 可 以 把 它 应 用 到 训练 集 之 外 的 新 数据 上 面 : 

















tree = build_ tree_id3(inputs) 


classify(tree, { "level" : "Junior", 

"lang” : "Java", 

"tweets" : "yes", 

"phd"” : "no"} ) # True 
classify(tree, { "level" : "Junior", 

"lang"” : "Java", 

"tweets" : "yes", 

"phd" : "yes"} ) # False 





同时 ， 也 可 以 将 它 应 用 于 具有 缺失 值 或 非 预 期 值 的 数据 : 











classify(tree, { "level" : "Intern" } ) # True 
classify(tree, { "level" : "Senior" } ) # False 


由 于 我 们 的 目的 主要 是 演示 如 何 构 建 决策 树 ， 因 此 这 里 使 用 了 整个 数据 集 来 
建立 决策 树 。 与 往常 一 样 ， 如 果 现 实 中 我 们 想 创造 一 个 优秀 模型 的 话 ， 就 应 
该 (收集 更 多 的 数据 并 且 ) 将 数据 分 成 训练 子 集 、 验 证 子 集 和 测试 子 集 。 























17.6 ”随机 森林 


由 于 决策 树 与 其 训练 数据 的 契合 程度 非常 高 ， 因 此 ， 它 总 是 倾 癌 于 出 现 过 拟 合 现象 。 为 了 
避免 出 现 这 种 情况 ， 可 以 使 用 随机 森林 (random forest) 技术 。 利 用 该 技术 ， 我 们 可 以 建 
立 多 个 决策 树 ， 然 后 通过 投票 方式 决定 如 何 对 输入 进行 分 类 : 
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def forest_cLassify(trees，input) : 
votes = [classify(tree, input) for tree in trees] 
vote_counts = Counter(votes) 
return vote_counts.most_common(1)[9][0] 


我 们 知道 ， 决 策 树 的 构建 是 一 个 确定 性 的 过 程 ， 那 么 如 何 才 能 得 到 随机 的 决策 树 呢 ? 


总 的 来 说 ， 这 需要 对 数据 进行 Bootstrap 抽样 处 理 (这 种 抽样 方法 我 们 曾经 在 15.6 市 “ 题 
外 话 : ee 介绍 过 )。 这 种 方法 不 是 利用 训练 集合 中 的 所 有 的 输入 数据 来 训练 每 棵 
决策 树 ， 而 是 利用 bootstrap_sample(inputs) 的 取样 结果 来 训练 每 棵 决策 树 。 因 为 每 一 棵 
决策 树 都 是 用 不 同 的 数据 建立 的 ， 因 此 与 其 他 决策 树 相 比 ， 每 一 棵 都 有 其 独特 之 处 。( 该 

方法 的 另 一 个 好 处 是 可 以 统一 使 用 非 抽 样 数据 来 测试 每 一 棵 决策 树 ， 这 意味 着 如 果 你 的 模 
型 效果 评测 方式 设计 得 巧妙 ， 完 全 可 以 将 所 有 数据 都 用 于 训练 集 .) 这 种 技术 就 是 著名 的 
Bootstrap 集成 法 (bootstrap aggregating) ， 或 者 简称 bagging 方法 。 


随机 性 的 另 一 个 来 源 是 在 分 类 时 不 断 变换 选择 最 佳 属性 (best_attribute) 进行 划分 的 方 
法 。 这 里 不 是 说 选择 全 部 的 剩余 属性 进行 划分 ， 而 是 先 从 中 随机 选取 一 个 子 集 ， 然 后 从 中 
寻找 最 佳 属性 进行 划分 : 


# 如 果 已 经 存在 了 几 个 足够 的 划分 候选 项 ,就 查看 全 部 
if len(split candidates) <= self.num split candidates: 
sampled_split candidates = split_ candidates 
# 否则 选取 一 个 随机 样本 
else: 
sampled_split_candidates = random.sample(split_candidates, 
self.num_split_candidates) 
































# 现在 仅 从 这 些 候选 项 中 选择 最 佳 属性 
best_attribute = min(sampled_split_candidates, 
key=partial(partition_ entropy_by, inputs)) 








partitions = partition_by(inputs, best _attribute) 


上 面 的 代码 展示 的 是 一 种 用 途 更 广泛 的 技术 ， 称 为 集成 学 习 (ensemble learning)， 它 能 够 将 
多 个 较 弱 的 模型 (weak learner， 通 常 是 高 偏差 、 低 方差 模型 ) 组 合成 一 个 更 加 强大 的 模型 。 


随机 森林 是 最 为 流行 的 一 种 集成 方法 ， 由 其 衍生 的 模型 几乎 到 处 可 见 。 


17.7 ”延伸 学 习 


。 scikit-learn 和 提供 了 许多 决策 树 模 型 (http:/scikit-learn.org/stable/modules/tree.html ) 。 
此 外 ， 它 还 提供 了 一 个 ensemble 模块 (http://scikit-learn.org/stable/modules/classes. 
html#module-sklearn.ensemble) ， 其 中 包括 RandomForestClassifier 以 及 其 他 集成 方法 。 

。 我 们 这 里 仅仅 介绍 了 决策 树 及 其 算法 的 皮毛 知识 ， 如 果 读 者 有 志 于 进一步 探索 该 主题 ， 
可 以 先 从 维基 百科 (http:/en.wikipedia.org/wiki/Decision_tree_learning) 的 介绍 开始 学 习 。 
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第 18 章 


神经 网 络 





我 喜欢 胡思乱想 ， 因 为 这 样 能 唤醒 脑 细 胞 。 
一 一 苏 斯 博士 


人 工 神 经 网 络 (artificial neural network， 或 简称 神经 网 络 ) 是 受 大 脑 启发 而 开发 出 来 的 一 
种 预测 模型 。 我 们 可 以 把 大 脑 看 作 一 团 相 互 连 接 的 神经 元 。 每 个 神经 元 都 以 其 他 神经 元 的 
输出 为 输入 ， 进 行 相应 计算 ， 如 果 结 果 超 过 某 个 国 值 ， 则 这 个 神经 元 将 会 进入 激活 状态 ， 
否则 它 会 继续 保持 非 激活 状态 。 


相应 地 ， 人 工 神 经 网 络 则 是 由 人 工 神 经 元 组 成 ， 同 样 也 对 输入 进行 类 似 的 计算 。 神 经 网 络 
可 以 解决 各 式 各 样 的 问题 ， 比 如 手写 体 识 别 与 面部 识别 等 ， 同 时 ， 深 度 学 习作 为 数据 科学 
最 为 火爆 的 一 个 分 支 也 大 量 用 到 神经 网 络 。 然 而 ， 大 部 分 神经 网 络 都 是 些 “ 黑 盒子 ”， 也 
就 是 说 ， 即 使 券 察 了 其 工作 细节 ， 也 很 难 获悉 它们 到 底 是 如 何 解决 问题 的 。 此 外 ， 大 型 的 
神经 网 络 的 训练 工作 难度 也 非常 大 。 作 为 一 名 处 于 “发 育 期 ”的 数据 科学 家 ， 你 所 遇 到 的 
大 多 数 问题 都 不 适合 用 神经 网 络 来 处 理 。 有 朝 一 日 ， 当 你 试图 打造 一 个 催生 奇 点 的 人 工 智 
能 的 时 候 ， 或 许 神经 网 络 会 是 个 不 错 的 选择 。 


18.1 感知 器 


感知 器 (perception) 可 能 是 最 简单 的 神经 网 络 了， 或 者 说 是 由 具有 个 二 进 制 输入 的 单个 
神经 元 所 组 成 的 神经 网 络 。 感 知 器 首先 会 对 输入 值 加 权 求 和 ， 如 果 加 权 和 大 于 等 于 0， 它 
就 会 被 激活 : 








ET 
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def step_function(x): 
return 1 if x >= 0 else 0 


def perceptron_output(weights, bias, x): 
"""returns 1 if the perceptron 'fires', 0 if not""" 
calculation = dot(weights, x) + bias 
return step_function(calculation) 


实际 上 ， 感 知 器 只 是 根据 点 x 的 超 平 面 将 问题 空间 分 隔 为 两 部 分 而 已 ; 
dot(weights,x) + bias == 0 


通过 正确 选用 权 值 ， 感 知 器 能 解决 许多 简单 的 问题 (图 18-1)。 例 如 ， 我 们 可 以 创建 一 个 
与 门 〈 即 AND， 也 就 是 说 ， 当 两 个 输入 都 为 1 时， 返回 1; 只 要 输入 有 一 个 为 0 时 ,返回 
0) ， 代 码 如 下 所 示 : 











weights = [2, 2] 
bias = -3 

















如 果 两 个 输入 都 为 1， 则 计算 结果 为 2+ 2 - 3 = 1， 所 以 输出 为 1。 但 是 ， 只 要 输入 中 有 一 
个 为 0， 则 计算 结果 为 2+ 0 一 3 = -1， 所 以 输出 为 0。 同时 ， 如 果 两 个 输入 都 为 0， 则 计算 
结果 为 -3， 所 以 输出 还 是 0。 同 样 ， 我 们 还 可 以 建立 一 个 或 门 (OR)， 代 码 如 下 所 示 : 





weights = [2, 2] 

















bias = -1 
有 双 输 入 感知 器 的 决策 空间 
-一 AND boundary 
-- OR boundary 
1.0 上 上 e(0,1) e(1,1) 
、 
0.5 上 ee 
念 Si 
0.0 上 ©(0,0) 
0.5 iL 
—0.5 0.0 0.5 1.0 1.5 
输入 1 











18-1: 双 输 入 感知 器 的 决策 空间 
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同样 ， 我 们 还 可 以 建立 一 个 非 门 ( 即 NOT， 它 只 有 一 个 输入 端 ， 并 且 会 把 输入 的 1 转换 为 
0， 反 之 亦 然 )， 代 码 如 下 所 示 : 





weights = [-2] 

bias = 1 
不 过 ， 有 些 问 题 是 单个 感知 器 所 无 法 解决 的 ， 比 如 ， 无 论 你 如 何尝 试 ， 都 无 法 通过 一 个 感 
知 器 来 构建 异 或 门 《XOR)， 即 两 个 输入 不 同时 输出 为 1， 否则 输出 为 0。 这 种 情况 下 ， 我 
们 就 需要 使 用 更 加 复杂 的 神经 网 络 了 。 


当然 ， 在 建立 逻辑 门 的 时 候 ， 根 本 无 需 惟 妙 惟 肖 地 模仿 神经 元 ， 看 一 眼下 面 的 代码 你 就 明 
国 本 























and_gate = min 
or_gate = max 
xor_gate = lambda x, y: 0 if x == y else 1 


就 像 真 实 的 神经 元 那样 ， 当 你 将 它们 连接 起 来 时 ， 就 会 发 生 许多 有 趣 的 事 ' 


18.2 ”前 馈 神 经 网 络 


大 脑 的 拓扑 结构 极为 复杂 ， 我 们 可 以 近似 地 把 它 看 作 一 个 理想 化 的 前 馈 (feed-forward) 神 
经 网 络 ， 该 网 络 由 多 层 构 成 ， 每 层 由 众多 神经 元 组 成 ， 然 后 逐 层 相连 。 一 般 情况 下 ， 前 馈 
神经 网 络 会 有 一 个 输入 层 (接收 输入 信号 ， 然 后 无 需 修 改 直 接 向 前 馈送 )， 一 个 或 者 多 个 
“隐藏 层 ”( 每 层 都 是 由 神经 元 组 成 ， 这 些 神经 元 以 前 一 层 的 输出 作为 其 输入 ， 进 行 某 些 计 
算 ， 并 将 结果 传递 给 下 一 层 )， 以 及 一 个 输出 层 (这 一 层 提 供 最 终 输出 )。 


正如 感知 器 那样 ， 每 个 〈 非 输入 ) 神经 元 的 每 个 输入 和 偏 移 项 都 会 有 一 个 权重 。 为 简单 起 
见 ， 我 们 将 偏 移 项 放 到 权重 向 量 的 未 尾 ， 并 且 所 有 神经 元 的 偏 移 项 的 输入 都 是 1。 


类 似 感 知 器 那样 ， 对 于 每 个 神经 元 而 言 ， 其 输入 与 权重 之 积 需 要 加 总 处 理 。 不 同 之 处 在 
于 ， 这 里 不 是 直接 输出 step_function 函数 应 用 于 输入 与 权重 之 积 的 结果 ， 而 是 将 其 平滑 
处 理 之 后 ， 输 出 一 个 近似 值 。 准 确 地 说 ， 这 里 使 用 的 是 sigmoid 函数 ， 见 图 18-2。 
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def sigmoid(t): 
return 1 / (1 + math.exp(-t)) 
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Step Function 与 Sigmoid 国 数 


-- Sstep function 
-一 sigmoid 





一 10 一 5 0 5 10 











18-2: sigmoid 函数 

为 什么 使 用 sigmoid 国 数 ， 而 不 是 更 为 简单 的 step_function 国 数 呢 ? 因为 要 训练 神经 网 
络 ， 就 得 使 用 微 积分 ， 而 要 使 用 微 积 分 ， 就 得 使 用 光滑 函数 。 我 们 知道 ， 阶 梯 函 数 无 法 确 
保 处 处 连续 ， 但 是 sigmoild 函数 却 是 它们 一 个 非常 好 的 平滑 近似 函数 。 





你 可 能 还 记得 ， 我 们 在 第 16 章 也 用 过 sigmoid 函数 ， 只 不 过 当时 我 们 称 其 
为 logistic 函数 。 实 际 上 ,“sigmoid” 指 的 是 函数 的 外 形 ， 而 “logistic” 指 
的 是 这 种 特定 的 函数 ， 但 是 人 们 经 常 将 两 者 等 价 使 用 。 








这 样 ， 我 们 就 能 计算 其 输出 了 ， 代 码 如 下 所 示 : 


def neuron_output(weights, inputs): 
return sigmoid(dot(weights, inputs)) 
有 了 这 个 函数 ， 我 们 就 可 以 将 神经 元 简单 表示 成 一 个 权重 列表 ， 列 表 的 长 度 等 于 神经 元 输 
入 数量 加 1， 因 为 还 要 加 上 偏 移 项 的 权重 。 这 样 ， 神 经 网 络 就 可 以 用 各 个 ( 非 输 入 ) 层 组 
成 的 列表 来 表示 ， 其 中 每 一 层 就 是 该 层 内 的 神经 元 所 组 成 的 一 个 列表 。 
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也 就 是 说 ， 神 经 网 络 可 以 用 (权重) 列表 的 (神经 元 ) 列表 的 〈 层 ) 列表 来 表示 。 
有 了 这 种 表示 方法 ， 神 经 网 络 用 起 来 就 会 非常 简便 : 


def feed_forward(neural_network, input_vector): 
"""takes in a neural network 
(represented as a list of lists of lists of weights) 
and returns the output from forward-propagating the input""" 


outputs = [] 


# 每 次 处 理 一 层 


for Layer in neural_network: 





input_with_bias = input_vector + [1] # 增加 一 个 偏 倚 输 入 
output = [neuron_output(neuron，input_with_bias) # 计算 输出 

for neuron in Layer] # 每 一 个 神经 元 
outputs.append(output) # 记 住 它 








# 然后 下 一 层 的 输入 就 是 这 一 层 的 输出 


input_vector = output 


return outputs 





和 如今， 我 们 无 需 使 用 感知 器 就 能 建立 异 或 门 了 ， 这 样 事情 就 变 得 简单 多 了 。 所 以 ， 我 们 只 
需要 调整 权重 ， 就 能 使 得 neuron_outputs 非常 接近 1 或 0 了 : 








xor_network = [# hidden layer 
[[20, 20, -30], #'and' 神 经 元 
[20, 20, -10]], #'or ' 神 经 元 
# output layer 
[[-66，60，-30]]] ”# “第 二 次 输入 不 同 于 第 一 次 输入 "神经 元 


for x in [0, 1]: 
for y in [0, 1]: 
# feed_forward 生 成 每 个 神经 元 的 输出 
# feed_forward[-1] 是 输出 层 神经 元 的 输出 
print x, y, feed_forward(xor_network,[x, y])[-1] 











9.38314668300676e-14] 
0.9999999999999059] 
0.9999999999999059] 
9.383146683006828e-14] 


POPO 
Pe et pet, fe 








借助 于 隐藏 层 ， 我 们 就 能 把 一 个 “与 ”神经 元 和 一 个 “或 ”神经 元 的 输出 馈送 至 “第 一 个 
输入 不 同 于 第 二 个 输入 ”神经 元 了 。 这 个 网 络 所 做 的 工作 ， 就 是 判断 “或 运算 的 结果 不 同 
于 与 运算 的 结果 ”， 这 实际 上 就 是 在 执行 异 或 运算 ， 见 图 18-3。 





















































图 18-3: 用 于 实现 异 或 运算 的 神经 网 络 


18.3 ” 反 向 传播 

通常 情况 下 ， 我 们 是 不 会 以 手动 方式 建立 神经 网 络 的 。 部 分 原因 在 于 ， 神 经 网 络 解决 的 是 
比较 大 型 的 问题 ， 比 如 图 象 识别 可 能 会 用 到 数 百 或 成 千 上 万 的 神经 元 。 还 有 一 部 分 原因 
是 ， 我 们 通常 无 法 “通过 推理 得 出 ”这 些 神经 元 的 安排 方式 。 

相反 ， 我 们 会 像 往 常 一 样 使 用 数据 用 来 训练 神经 网 络 。 一 个 流行 的 训练 算法 是 反 向 传播 
(backpropagation) ， 它 与 前 面 介绍 过 的 梯度 下 降 法 比较 类 似 。 




















假如 我 们 有 一 个 训练 集 ， 其 中 含有 输入 向 量 和 相应 的 目标 输出 向 量 。 例 如 ， 前 面 xor_ 
network 例子 中 的 输入 向 量 为 [1，9] ， 对 应 的 目标 输出 端 向 量 为 [1] 。 同 时 ， 假 定 我 们 的 网 
络 已 经 拥有 一 组 权重 ， 那 么 接 下来， 我们 就 需要 使 用 以 下 算法 来 调整 这 些 权 重 。 


. 在 输入 向 量 上 运行 feed_forward， 从 而 得 到 网 络 所 有 神经 元 的 输出 。 

这 样 ， 每 个 输出 神经 元 都 会 得 到 一 个 误差 ， 即 目标 值 与 输出 值 之 差 。 

.计算 作为 神经 元 权重 的 函数 的 误差 的 梯度 ， 然 后 根据 误差 降低 最 快 的 方向 调整 权重 。 
.将 这 些 输 出 误差 反 向 传播 给 隐藏 层 以 便 计算 相应 误差 。 

. 计算 这 些 误差 的 梯度 ， 并 利用 同样 的 方式 调整 隐藏 层 的 权重 。 


一 般 情 况 下 ， 这 个 算法 需要 在 整个 训练 集 上 多 次 迭代 ， 直 到 网 络 收敛 为 止 : 
































def backpropagate(network, input_vector, targets): 


hidden_outputs, outputs = feed forward(network, input_vector) 
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# the output * (1 - output) is from the derivative of sigmoid 
output_deLtas = [output * (1 - output) * (output - target) 
for output, target in zip(outputs, targets)] 


# adjust weights for output layer, one neuron at a time 
for i, output_neuron tin enumerate(network[-1]): 
# focus on the ith output layer neuron 
for j, hidden output in enumerate(hidden_outputs + [1]): 
# ad7ust the jth weight based on both 
# this neuron's delta and its jth input 
output_neuron[j] -= output deltas[i] * hidden output 


# back-propagate errors to hidden layer 
hidden deltas = [hidden output * (1 - hidden output) * 


dot(output_deltas, [n[i] for n in output_Layer]) 
for i, hidden_output in enumerate(hidden_outputs)] 


# adjust weights for hidden layer, one neuron at a time 
for i, hidden_neuron tin enumerate(network[0]): 
for j}, input in enumerate(input_ vector + [1]): 
hidden neuron[j] -= hidden deltas[i] * input 


实际 上 ， 以 上 代码 所 做 的 事情 无 异 于 显 式 写 出 与 权重 有 关 的 均 方 误差 ， 并 应 用 第 8 章 建立 


的 minimize_stochastic 国 数 


就 本 例 


o 

















言 ， 显 式 写 出 梯度 函数 非常 麻烦 。 如 果 你 熟悉 人 微 积 分 和 链 式 法 则 ， 那 么 这 些 数学 
细节 对 你 来 说 还 算 简 单 ， 但 是 直接 用 文字 表述 的 话 (误差 国 数 对 神经 元 i 至 神经 元 j 输入 
上 的 权重 求 偏 导数 ”) 则 相当 无 趣 。 





18.4 实例 : 战胜 CAPTCHA 


为 了 确保 在 网 站 注册 的 是 真实 的 人 而 非 “机 器 人 ”， 负 责 产 品 管理 的 副 ， 
添加 CAPTCHA 功能 。 


准确 地 讲 ， 他 想 向 用 户 展示 一 个 数字 的 图 片 ， 关 





























总 想 在 注册 过 程 中 





F 要 求 他 们 输入 数字 ， 以 此 证 明 他 们 确实 是 





真实 的 人 。 
你 告诉 他 这 难 不 倒 计 算 机 ， 但 是 他 却 不 信 ， 所 以 你 打算 写 一 个 可 以 轻松 搞定 这 个 问题 的 程 
序 来 说 服 他 。 
下 面 ， 我 们 将 通过 5 x 5 像素 的 图 片 来 显示 各 个 数字 : 
eeee ..@.. eeee eeee 86...6 eeee eeee eeee eeee eeece 
@...@ ..@.. iu@ ..@ Q@...@ 0.. Qas a fiws@ Qs 
@...@0 ..@.. eeee eeeee eeee eeeee eetee ....@ eeee eeeee 
@...@ ..@.. @.. i@ i .i .0 .0 0...0 ....@ 
eeeee ..0.. eeee eeee .6 eeee eete ....¢ eeee eeeea 
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由 于 我 们 的 神经 网 络 是 以 数字 组 成 的 向 量 作为 其 输入 的 ， 所 以 我 们 将 每 个 图 像 转换 为 长 
度 为 25 的 向 量 ， 其 元 素 的 值 是 1 (“这 个 像素 位 于 该 图 像 中 ”) 或 0 ( “这 个 像素 不 在 该 
图 像 中 ”)。 


例如 ， 数 字 0 可 以 表示 为 : 
































我 们 希望 神经 网 络 给 出 的 结果 能 够 指向 一 个 具体 的 阿拉 伯 数 字 ， 因 此 我 们 需要 10 种 不 同 
的 输出 结果 。 例 如 对 于 数字 4 来 说 ， 正 确 的 输出 结果 将 是 : 














[0, 9, 0, 0, 1, 0, 0, 0, 0, 0] 
那么 ， 假 如 我 们 要 按 顺序 输入 0 到 9， 则 相应 的 识别 对 象 为 : 


targets = [[1 if i == j else 0 for i in range(10)] 
for j in range(10)] 


因此 ， 四 号 识别 对 象 即 targets[4] 的 正确 输出 结果 为 数字 4。 
好 了 ， 现 在 可 以 建立 我 们 的 神经 网 络 了 : 


random. seed(0) # 得 到 重复 的 结果 
input_size = 25 # 每 个 输入 都 是 一 个 长 度 为 25 的 向 量 
num_hidden = 5 # 隐藏 层 将 含有 5 个 神经 元 








output_size = 10  # 对 于 每 个 输入 ,我 们 需要 16 个 输出 结果 


# 每 一 个 隐藏 神经 元 对 每 个 输入 都 有 一 个 权重 和 一 个 偏 傈 权重 
hidden_layer = [[random.random() for __ ;in range(input_size + 1)] 
for __ in range(num_hidden)] 











# 每 一 个 输出 神经 元 对 每 个 隐藏 神 经 元 都 有 一 个 权重 和 一 个 偏 倚 权 重 
output_layer = [[random.random() for __ in range(num_hidden + 1)] 
for __ in range(output_ size)] 


# 神经 网 络 是 从 随机 权重 开始 的 
network = [hidden layer, output_layer] 


这 里 ， 我 们 可 以 通过 反 向 传播 算法 来 训练 我 们 的 模型 : 


# 10 000 次 迭代 看 起 来 足够 进行 收敛 
for __ in range(10000) : 
for input_vector, target vector in zip(inputs, targets): 
backpropagate(network, input_vector, target_vector) 

















它 在 训练 集 上 效果 很 好 : 
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def predict(input): 
return feed_forward(network, input)[-1] 


predict(inputs[7]) 
# [0.026, 0.0, 0.0, 0.018, 0.001, 0.0, 0.0, 0.967, 0.0, 0.0] 








这 表明 ， 输 出 数字 7 的 神经 元 的 值 为 0.97， 而 其 他 输出 神经 元 的 值 则 非常 小 。 
同时 ， 我 们 还 可 以 将 其 应 用 于 不 同 的 数字 表示 形式 上 ， 比 如 数字 3 可 以 用 如 下 表示 形式 : 


predict([0,1,1,1,0, # .6066. 
0,0,0,1,1，# ...606 
0,0,1,1,0，# ..@@. 
0,0,0,1,1，# ...66 
0,1,1,1,0]) # .066. 


# [0.0, 0.0, 0.0, 0.92, 0.0, 0.0, 0.0, 0.01, 0.0, 0.12] 


我 们 的 神经 网 络 认 为 它 看 起 来 非常 像 3， 但 是 对 于 像 如 下 这 种 形式 表示 的 数字 8， 输出 结 
果 中 数字 5、8 和 9 的 得 分 都 不 低 : 
predict([0,1,1,1,0, # .6066. 
， # 6@..66 
# .666. 


， # 6..66 
]) # .@@@. 


# [0.0, 0.0, 0.0, 0.0, 0.0, 0.55, 0.0, 0.0, 0.93, 1.0] 
也 许 更 大 的 训练 集会 有 所 帮助 。 


虽然 神经 网 络 的 运行 不 是 完全 透明 的 ， 但 我 们 可 以 通过 检查 隐藏 层 的 权重 来 了 解 它们 的 识 
别 情况 。 特 别 地 ， 我 们 可 以 把 每 个 神经 元 的 权重 绘制 为 5x 5 的 网 格 ,该 网 格 是 与 5x5 的 
输入 相对 应 的 。 


现实 中 ， 你 可 能 希望 数值 为 0 的 权重 的 颜色 为 白色 ， 大 于 0 的 权重 的 绝对 值 越 大 ， 颜 色 
(比如 说 ) 越 绿 ， 小 于 0 的 权重 的 绝对 值 越 大 ， 颜 色 (比如 说 ) 越 红 。 令 人 遗憾 的 是 ， 这 
在 黑白 色 的 书 中 是 无 法 做 到 的 。 

相反 ， 我 们 会 用 白色 表示 值 为 0 的 权重 ， 其 值 离 0 越 远 的 权重 颜色 越 暗 。 同 时 ， 利 用 阴影 
线 来 表示 符号 为 负 的 权重 。 

为 此 ， 我 们 需要 用 到 函数 pyplot.imshow 一 一 这 是 我 们 之 前 没 提 及 的 一 个 函数 。 利 用 它 ， 
我 们 可 以 逐 像素 地 绘制 图 像 。 通 常情 况 下 ， 这 个 函数 对 于 数据 科学 没有 很 大 用 途 ， 但 在 这 
里 , 该 函数 意义 非 几 : 




















import matplotlib 





weights = network[0][0] # 隐藏 层 的 第 一 个 神经 元 
abs_weights = map(abs, weights) # 阴影 部 分 只 取决 于 绝对 值 
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grid = [abs_weights[row: (row+5)] # 将 权重 转化 为 5x5 的 网 格 





for row ;in range(0,25,5)] # [weights[0:5], ..., weights[20:25]] 
ax = plt.gca() # 为 了 使 用 影 线 ,我 们 需要 轴 
ax.imshow(grid, # 这 里 与 plt.imshow 一 样 
cmap=matplotlib.cm.binary,， # 使 用 白 - 黑 色 度 
interpolation='none') # 不 进行 插值 处 理 





def patch(x, y, hatch, color): 
"""return a matplotlib 'patch' object with the specified 
location, crosshatch pattern, and color"”"” 
return matplotlib.patches.Rectangle((x - 0.5, y - 0.5), 1, 1, 
hatch=hatch, fill=False, color=color) 


# 用 交 又 影 线 表示 人 负 权 重 


for i in range(5): # 行 
for j in range(5): # 列 
if weights[5*i + j] < 0: # row i, column j = weights[5*i + j] 


# 加 上 黑白 影 线 ,这 样 无 论 深 浅 就 都 可 见 了 
ax.add_patch(patch(j, i, '/', "white")) 
ax.add_patch(patch(j, i, '\\', "black")) 


plt.show() 





network[8][2] network[8][3] network[8][4] 








偏 位 -4.8 偏 倚 1.1 偏 倚 -1.3 偏 倚 1.3 偏 倚 0.4 











图 18-4: 隐藏 层 的 各 个 权重 


通过 图 18-4 可 以 看 到 ， 第 一 个 隐藏 神 经 元 在 左 列 和 中 间 行 的 中 心 处 的 权重 为 正 值 ， 并 且 绝 
对 值 较 大 ， 而 右 列 中 的 权重 为 负 值 ， 且 绝对 值 较 大 。( 此 外 ， 你 还 会 发 现 它 的 偏 倚 项 为 负 
值 ， 且 绝对 值 较 大 ， 这 意味 着 除非 它 “ 正 在 考察 的 ”输入 为 正 ， 否 则 很 难 被 激活 。) 








事实 上 ， 对 于 这 些 输 入 来 说 ， 它 的 输出 确实 如 我 们 所 愿 : 


left_column_only = [1, 0, 0, 0, 0] * 5 
print feed_forward(network, left_column_only)[0][0] #1.0 


center_middle row = [0, 0, 0, 0, 0] * 2 + [0, 1, 1, 1, 0] + [90, 0, 0, 0, 0] * 2 
print feed_forward(network, center_middle row)[0][0] # 0.95 


right_column _only = [0, 0, 0, 0, 1] * 5 
print feed_forward(network, right_column_only)[0][0] #0.0 





神经 网 络 | 205 





同样 ， 中 间 的 隐藏 神经 元 似乎 “喜欢 ”水 平行 而 非 两 边 的 垂直 行 ， 且 最 后 一 个 隐藏 的 神经 














元 似乎 “喜欢 ”中 心 行 而 非 最 右 列 。( 其 他 两 个 神经 元 则 很 难 解释 。) 
对 我 们 以 个 性 化 形式 表示 的 数字 3 运行 这 个 神经 网 络 ， 结 果 会 是 怎样 呢 ? 
my_three = [0,1,1,1,0, # .666. 
0,0,0,1,1，# ...@@ 
0,0,1,1,0， # ..@@. 
0,0,0,1,1, # ...66 
0,1,1,1,0] # .666. 


hidden, output = feed_forward(network, my_three) 


























隐藏 层 的 输出 结果 为 : 
0.121080 # 来 自 network[0][9], 可 能 是 受到 了 (1，4) 的 影响 
0.999979 # 来 自 network[60][1],(0，2) 和 (2，2) 的 贡献 较 大 
0.999999 # 来 自 network[60][2], 除 (3，4) 之 外 缘 为 正 值 
0.999992 # 来 自 network[9][3], 依 旧 是 (0，2) 和 (2，2) 的 贡献 较 大 
0.000006 # 来 自 network[9][4] ,除了 中 间 一 行 外 ,其 他 皆 为 负 值 或 零 值 
这 将 进入 表示 “3” 的 输出 神经 元 中 ， 相 应 权重 为 network[-1][3]: 
-11.61 # hidden[0] 的 权重 
-2.17 # hidden[1] 的 权重 
9.31 # hidden[2] 的 权重 
-1.38 # hidden[3] 的 权重 
-11.47 # hidden[4] 的 权重 
- 1.92 # 偏 倚 输 入 的 权重 
因此 ， 这 个 神经 元 将 计算 : 
sigmoid(.121 * -11.61 +1* -2.17 +1*9.31 - 1.38 *1-0*11.47 - 1.92) 


正如 我 们 所 看 到 的 ， 其 值 为 0.92。 
也 就 是 说 将 每 个 25 维 的 输入 映射 为 5 个 数字 。 然 后 ， 





出 一 个 作为 输出 


我 们 看 到 ，my_three 落 在 分 区 0〈 即 只 轻微 激活 了 隐藏 神 经 元 0) 
2 和 3 ( 即 强烈 激活 那些 隐藏 神经 元 ) 


都 没 激活 )。 


上 


然后 ， 


实际 上 ， 隐 藏 层 是 将 25 维 空间 计算 成 5 个 不 同 的 分 区 ， 


每 个 输出 神经 元 从 这 5 个 数字 中 挑 


o 





“下 方 ”， 
“上 部 ”， 再 往 前 些 是 分 区 4 的 底 首 
10 个 输出 神经 元 中 的 每 一 个 都 会 使 用 这 


前 面 是 分 区 1、 
( 即 所 有 神经 元 
文 5 个 激活 单元 来 判断 my_three 





是 否 为 它们 对 应 的 数字 。 


18.5 延伸 学 习 


了 一 门 免费 课程 “机 器 学 习 的 神经 网 络 ”(https:Wwww.coursera.org/course/ 
在 我 编写 本 书 时 ， 最 近 的 一 次 开课 时 间 是 2012 年 ， 不 过 相关 课程 材料 仍 














Coursera 提供 





neuralnets ) 。 


然 可 用 。 
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Michael Nielsen 正在 编写 一 本 免费 的 书 , 书 名 为 Neural Networks and Deep Learning(http:// 
neuralnetworksanddeeplearning.com/) 。 当 你 阅读 本 书 时 ， 很 可 能 它 已 经 写 完 了 。 

PyBrain (http://pybrain.org/) 是 一 个 相当 简单 的 Python 神经 网 络 库 。 

Pylearn2 (http://deeplearning.net/software/pylearn2/) 是 一 个 更 加 高 级 同时 也 更 难 使 用 的 
神经 网 络 库 。 
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第 19 章 


又 类 分 析 





使 各 莫 得 以 类 聚 者 ， 热 情 而 非 疯狂 也 。 
一 一 罗伯特 : 赫 里 克 


本 书 中 的 大 多 数 算法 都 是 所 谓 的 监督 学 习 方法 ， 因 为 它们 都 是 以 一 组 标注 过 的 数据 作为 起 
点 的 ， 并且 在 此 基础 上 为 新 的 、 未 标注 过 的 数据 做 出 预测 。 然 而 ， 本 章 介 绍 的 聚 类 分 析 却 
是 一 种 无 监督 学 习 方法 ， 也 就 是 说 ， 它 可 以 利用 完全 未 经 标注 的 数据 (也 可 以 使 用 标注 过 
的 数据 ， 但 我 们 忽略 这 些 标签 ) 进行 工作 。 


19.1 原理 


每 当 你 观察 某 些 数据 源 时 ， 很 可 能 会 发 现 数据 会 以 某 种 形式 形成 聚 类 (cluster)。 例 如 ， 展 
示 百 万 富翁 居住 地 的 数据 集中 ， 数 据点 很 可 能 在 贝 砷 利 山 和 曼哈顿 等 地 方形 成 聚 类 。 而 在 
展示 人 们 每 周 工作 时 间 (以 小 时 为 单位 ) 的 数据 集中 ， 数 据 则 很 可 能 聚集 在 40 附近 (并 
且 ， 如 果 这 些 数据 来 自 法 律 规定 人 们 每 周至 少 工作 20 个 小 时 的 国家 的 话 ， 那 么 这 些 数据 
很 可 能 就 会 聚集 在 19 左右 。) 对 于 登记 选民 的 人 口 统计 的 数据 集 ， 则 可 能 形成 多 种 集群 
(例如 “足球 妈妈 ”“ 无 聊 的 退休 人 员 ”“ 待 业 千 禧 ”等 )， 这 些 群 体 正 是 民意 调查 和 政治 顾 
问 所 要 密切 关注 的 。 








与 之 前 见 到 的 问题 不 同 ， 这 种 问题 通常 没有 “正确 ”的 聚 类 。 一 个 可 选 的 聚 类 方案 是 将 基 
些 “ 待 业 千 禧 ”与 “大 学 毕业 生 ” 分 为 一 伙 ， 而 将 另 一 些 “ 待 业 千 禧 ”与 “ 嘴 老 族 ” 分 为 
一 组 。 当 然 ， 很 难说 哪 种 方案 肯定 比 其 他 方案 要 好 ， 但 是 ， 对 于 每 一 种 方案 而 言 ， 都 可 以 
按照 自己 的 “优良 聚 类 ”标准 不 断 进 行 优化 。 
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此 外 ， 这 些 聚 类 本 身 无 法 对 自己 进行 标注 。 要 想 标 注 的 话 ， 你 必须 考察 每 个 聚 类 中 的 底层 
数据 。 


19.2 ”模型 


对 于 我 们 来 说 ， 每 一 个 输入 都 是 4 维 空间 中 的 一 个 向 量 〈 跟 以 前 一 样 ， 我 们 还 是 使 用 数字 
列表 来 表示 向 量 )。 我 们 的 目标 是 识别 由 类 似 的 输入 所 组 成 的 聚 类 ，( 有 时 ) 还 要 找 出 每 个 
聚 类 的 代表 值 。 


例如 ， 每 个 输入 可 以 是 博客 文章 的 标题 (我 们 可 以 设法 用 数字 向 量 来 表示 它 )， 那 么 在 这 
种 情况 下 ， 我 们 的 目标 可 能 是 对 相似 的 文章 进行 聚 类 ， 也 可 能 是 了 解 用 户 都 在 写 什么 博客 
内 容 。 或 者 ， 假 设 我 们 有 一 张 包含 数 千 种 〈 红 、 绿 、 蓝 ) 颜色 的 图 片 ， 但 是 我 们 需要 一 个 
10 色 版 本 来 进行 丝 网 印刷 。 这 时 ， 聚 类 分 析 不 仅 可 以 帮助 我 们 选 出 10 种 颜色 ， 并 且 还 能 
将 “色差 ”控制 在 最 小 的 范围 之 内 。 


























左 均 值 算法 (means) 是 一 种 最 简单 的 聚 类 分 析 方法 ， 它 通常 需要 首先 选 出 聚 类 大 的 数目 ， 
然后 把 输入 划分 为 集合 8%，…，S， 并 使 得 每 个 数据 到 其 所 在 聚 类 的 均值 〈 中 心 对 象 ) 的 
距离 的 平方 之 和 最 小 化 。 由 于 将 n 个 点 分 配 到 大 个 聚 类 的 方法 非常 多 ， 所 以 寻找 一 个 最 优 
聚 类 方法 是 一 件 非常 困难 的 事情 。 一 般 情况 下 ， 为 了 找到 一 个 好 的 聚 类 方法 ,我们 可 以 借 
助 于 和 迭代 算法 。 


1. 首先 从 a 维 空间 中 选 出 选择 个 数据 点 作为 初始 聚 类 的 均值 ( 即 中 心 )。 

2. 计算 每 个 数据 点 到 这 些 聚 类 的 均值 ( 即 聚 类 中 心 ) 的 距离 ， 然 后 把 各 个 数据 点 分 配给 离 
它 最 近 的 那个 聚 类 。 

3. 如 果 所 有 数据 点 都 不 再 被 重新 分 配 ， 那 么 就 停止 并 保持 现 有 聚 类 。 

4. 如果 仍 有 数据 点 被 重新 分 配 ， 则 重新 计算 均值 ， 并 返回 到 第 2 步 。 























利用 第 4 章 中 学 过 的 vector_mean 函数 ， 可 以 轻松 创建 如 下 所 示 的 类 来 完成 上 述 工 作 : 


class KMeans: 
"""performs k-means clustering”""”" 


def _ iinit_ (self, k): 
self.k =k # 聚 类 的 数目 
self.means = None # 聚 类 的 均值 


def classify(self, input): 
"""return the index of the cluster closest to the input""" 
return min(range(self.k), 
key=Lambda i: squared_distance(input, self.means[i])) 


def train(self, inputs): 
# 选择 k 个 随机 点 作为 初始 的 均值 


self.means = random.sample(inputs, self.k) 
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A 


assignments = None 
while True: 
# 查找 新 分 配 


new_assignments = map(self.classify, inputs) 


# 如 果 所 有 数据 点 都 不 再 被 重新 分 配 , 那 么 就 停止 
if assignments == new_assignments: 
return 


# 否则 就 重新 分 配 


assignments = new_assignments 


# 并 基于 新 的 分 配 计算 新 的 均值 
for 1 in range(self.k): 
# 查找 分 配给 聚 类 i 的 所 有 的 点 


i_points = [p for p, a in zip(inputs, assignments) if a == i] 





# 确保 i_points 不 是 空 的 ,因此 除数 不 会 是 0 
if i_points: 
self.means[i] = vector_mean(i_points) 


看 让 我 们 来 看 看 其 中 的 原理 。 


19.3 示例 : 聚会 


为 了 庆祝 DataSciencester 的 发 展 壮大 ， 用 户 回馈 部 门 的 副 总 决定 针对 你 家 乡 的 用 户 组 织 儿 
场 私人 聚会 ， 并 赞助 啤酒 、 披 萨 和 DataSciencester 工 恤 。 由 于 你 了 解 所 有 当地 用 户 的 住址 
(如 图 19-1) ， 所 以 他 想 让 你 来 选择 聚会 的 地 点 ， 以 方便 大 家 的 参与 。 























下 
































根据 具体 的 观察 方式 ， 你 可 能 会 发 现 有 两 个 或 三 个 用 户 群 。( 这 很 容易 看 出 来 ， 因 为 这 里 
的 数据 只 有 两 个 维度 。 但 是 随 着 维度 的 增加 ， 对 眼神 的 挑战 就 会 越 来 越 大 。) 


首先 ， 我 们 假设 他 提供 的 预算 足以 组 织 三 次 聚会 。 然 后 你 来 到 计算 机 前 面 输 入 下 列 代码 : 











random. seed(0) # 因此 你 得 到 的 结果 与 我 的 一 样 
clusterer = KMeans(3) 

CLusterer .tratin(Cinputs) 

print clusterer.means 
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用 户 住址 
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一 60 一 50 一 40 一 30 一 20 一 10 0 10 20 30 
市 中 心 以 东 的 街区 














图 19-1: 你 家 乡 所 在 地 的 用 户 住址 


你 发 现 用 户主 要 居住 在 以 [-44.3]、[-16，-10] 和 [18，20] 为 中 心 的 三 个 区 域 中 ， 因 此 ， 你 
打算 在 这 三 个 位 置 附近 寻找 聚会 场地 ( 见 图 19-2)。 


你 将 这 些 汇报 给 了 副 总 ， 但 是 他 却 告诉 你 目前 的 预算 仅 够 组 织 两 次 聚会 了 。 
“ 没 问 题 ,” 你 说 : 


random. seed(0) 
clusterer = KMeans(2) 
clusterer.train(inputs) 
print clusterer.means 
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40 分 为 三 组 后 的 用 户 住址 
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19-2: 分 为 三 组 后 的 用 户 住址 


如 图 19-3 所 示 ， 某 次 聚会 地 点 仍然 定 在 [18，20] 位 置 附近 ， 而 另 一 次 聚会 的 地 点 则 定 在 
[-26，-5] 位 置 附近 。 














分 为 两 组 后 的 用 户 住址 
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图 19-3: 分 为 两 组 后 的 用 户 住址 


19.4 选择 聚 类 数目 


























但 是 通常 情 ; 


在 前 一 个 例子 中 ， 聚 类 数目 大 的 选择 是 由 外 部 因素 决定 的 ， 我 们 无 法 控制 。 
下 ， 事 情 并 非 如 此 。K 的 选择 方法 可 谓 五 花 八 门 ， 一 个 比较 易于 理解 的 方法 是 以 误差 


每 个 数据 点 到 所 在 聚 类 的 中 心 的 距离 ) 的 平方 之 和 作为 的 函数 ， 夯 





该 函数 的 图 像 ， 并 




















在 其 “弯曲 ”的 地 方 寻找 合适 的 取 值 : 








def squared_clustering_errors(inputs, k): 


"""finds the total squared error from k-means clustering the inputs""" 


clusterer = KMeans(k) 

clusterer.train(inputs) 

means = clusterer.means 

assignments = map(clusterer.classify, inputs) 


return sum(squared distance(input, means[cluster]) 
for input, cluster in zip(inputs, assignments)) 


# 现在 画 





出 1 至 Len( 输 入 ) 的 聚 类 图 
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ks = range(1, len(inputs) + 1) 
errors = [squared_clustering_errors(inputs, k) for k in ks] 


plt.plot(ks, errors) 
plt.xticks(ks) 
plt.xlabel("k") 
plt.ylabel(" 误 差 的 平方 之 和 ") 
pPLt.titLe(" 总 误差 与 聚 类 数目 ") 
plt.show() 








总 误差 与 聚 类 
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19-4: 选择 聚 类 数目 k 
从 图 19-4 可 以 看 出 ， 这 种 方法 得 到 的 结果 与 我 们 最 初 的 目测 值 是 相符 的 ， 也 就 是 说 3 是 一 


个 “合适 ”的 聚 类 数目 。 


19.5 示例 : 对 色彩 进行 聚 类 


负责 周边 产品 的 副 总 设计 了 一 款 美观 的 DataSciencester 便签 ， 希 望 你 能 够 在 聚会 上 分 发 给 
用 户 。 令 人 遗憾 的 是 ， 你 的 便签 打印 机 功能 有 限 ， 每 张 便签 上 面 最 多 只 能 打出 五 种 色彩 。 
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同时 ， 由 于 负责 美术 的 副 总 正在 休假 ， 因 此 ， 负 责 周边 产品 的 副 总 向 你 咨询 能 否 将 其 设计 
改 为 只 包含 五 种 颜色 。 


我 们 知道 ， 计 算 机 图 像 可 以 表示 为 像素 的 二 维 阵 列 ， 甚 中 每 个 像素 本 身 就 是 一 个 三 维 向 量 
(red，green，btLue)， 代 表 了 该 像素 的 颜色 (https:Wen.wikipedia.org/wikiRGB_color_ model) 。 











为 了 得 到 图 像 的 五 色 版 本 ， 我 们 需要 执行 下 列 步 又 : 


1. 选择 五 种 颜色 
给 每 个 像素 从 中 挑选 一 种 颜色 


事实 上 ， 这 个 工作 非常 适合 用 k-means 算法 来 做 ， 因 为 该 算法 能 够 将 像素 划分 为 红 一 
绿 - 蓝 空间 中 的 五 个 聚 类 。 之 后 ， 我 们 只 要 将 这 些 聚 类 中 的 像素 用 其 中 间 色 来 重新 着 
色 就 可 以 了 。 


首先 ， 我 们 需要 设法 将 图 像 加 载 到 Python 中 。 


二 








二 





事实 上 ， 这 可 以 借助 matplotlib 来 实现 : 





path_to_png_file = r"C:\images\image.png"” # 不 管 你 的 图 像 在 哪里 
import matplotlib.image as mpimg 
img = mpimg.imread(path_to_png_file) 








实际 上 ，img 在 幕后 是 作为 一 个 NumPy 数组 来 处 理 的 ， 不 过 就 这 里 来 说 ， 我 们 可 以 将 其 视 
为 以 列表 为 元 素 的 列表 所 组 成 的 列表 。 


这 里 ，img[i][j] 表示 第 i 行 第 j 列 的 像素 ， 并 且 每 个 像素 都 由 一 个 取 值 范围 介 于 0 和 1 之 
间 的 [red，green，blue] 数字 列表 来 指定 其 颜色 : 

















top_row = img[0] 
top_left_ pixel = top_row[0] 
red, green, blue = top_left_ pixel 


特别 是 ， 我 们 可 以 将 所 有 像素 放 到 一 个 扁平 化 的 列表 中 : 


pixels = [pixel for row in img for pixeL in row] 











然后 将 其 送 入 我 们 的 聚 类 模型 : 





clusterer = KMeans(5) 
clusterer.train(pixels)  # 这 可 能 会 花 一 些 时 间 


一 旦 完成 ， 我 们 得 到 了 一 张 具 有 相同 格式 的 新 图 像 


def recolor(pixel): 








cluster = clusterer.classify(pixel) # 最 近 的 聚 类 的 索引 
return clusterer.means[cluster] # 最 近 的 聚 类 的 均值 
new_img = [[recolor(pixel) for pixel in row] # 改变 这 一 行 像素 的 颜色 
for row in img] # 图 像 的 每 一 行 
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接 下 来 ， 我 们 就 可 以 通过 plt.imshow() 来 显示 该 图 像 了 : 


plt.imshow(new_img) 
plt.axis('off') 
plt.show() 





当然 ， 在 只 有 黑白 色 的 书 中 无 法 展示 这 种 色彩 的 效果 ， 所 以 我 们 在 图 19-5 中 显示 了 一 张 全 
彩色 图 片 的 灰 度 图 ， 以 及 一 张 采用 这 种 技术 将 其 降低 到 五 种 颜色 后 的 灰 度 图 : 





























图 19-5: 原始 图 像 以 及 利用 5-means 去 色 后 的 效果 


19.6 自 下 而 上 的 分 层 聚 类 

另 一 种 聚 类 方法 是 采用 自 下 而 上 的 方式 “培养 ” 聚 类 ， 为 此 ， 我 们 可 以 借助 下 列 方式 : 

1. 利用 每 个 输入 构成 一 个 聚 类 ， 当 然 每 个 聚 类 只 包含 一 个 元 素 ; 

2， 只 要 还 剩余 多 个 聚 类 ， 就 找 出 最 接近 的 两 个 ， 并 将 它们 合 二 为 一 。 

最 后 ， 我 们 将 得 到 一 个 包含 所 有 输入 的 巨大 的 聚 类 。 如 果 我 们 将 合并 顺序 记录 下 来 ， 就 可 
以 通过 拆 分 的 方法 来 重建 任意 数量 的 聚 类 。 举 例 来 说 ， 如 果 我 们 想得到 3 个 聚 类 ， 那 么 只 
要 撤销 最 后 两 次 合并 就 可 以 了 。 

我 们 将 使 用 一 种 非常 简单 的 方法 来 表示 聚 类 。 首 先 ， 我 们 的 数值 将 进入 叶 (leaf) 聚 类 中 ， 
这 时 我 们 将 其 表示 为 一 元 组 : 


Leaf1 = ([10，20],)  # 要 创建 一 元 组 ,需要 在 末尾 加 一 个 逗号 
Leaf2 = 〈[30，-15],) # 否则 Python 会 把 括号 当成 单纯 的 括号 


我 们 通过 合并 上 面 的 聚 类 来 培育 新 的 聚 类 ， 并 将 其 记 为 二 元 组 〈 合 并 次 序 ， 子 聚 类 ) : 
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merged = (1，[Leaf1，Leaf2]) 





tt 
| 医 


我 们 稍 后 会 介绍 合并 次 序 ， 但 现在 不 妨 先 来 创建 一 些 辅助 函 数 : 
def is_Leaf(CLuster ) : 

"""a cluster is a leaf if it has length 1""" 

return len(cluster) == 1 


def get_children(cluster): 
"""returns the two children of this cluster if it's a merged cluster; 
raises an exception ti this is a leaf cluster"”"”" 
if is_leaf(cluster): 
raise TypeError("a leaf cluster has no children") 
else: 
return cluster[1] 


def get_ values(cluster): 
"""returns the value in this cluster (if it's a leaf cluster) 
or all the values in the leaf clusters below it (if it's not) 
if is_leaf(cluster): 
return cluster # 已经 是 一 个 包含 值 的 一 元 组 
else: 
return [value 
for child in get_children(cluster) 
for value in get_values(child)] 


Mam 


为 了 合并 相距 最 近 的 聚 类 ， 我 们 需要 明确 聚 类 之 间 的 距离 的 概念 。 为 此 ， 我 们 将 使 用 两 个 
聚 类 的 元 素 之 间 的 最 小 距离 ， 据 此 将 两 个 挨 得 最 近 的 聚 类 合并 (但 有 时 会 产生 巨大 的 链 式 
聚 类 ， 但 是 聚 类 之 间 却 挨 得 不 是 很 紧 )。 如 有 果 想 得 到 紧凑 的 球状 聚 类 ， 可 使 用 最 大 距离 ， 
而 不 是 最 小 距离 ， 因 为 使 用 最 大 距离 合并 聚 类 时 ， 它 会 尽力 将 两 者 塞 进 一 个 最 小 的 球 中 。 
实际 上 ， 这 两 种 距离 都 很 常用 ， 就 像 平均 距离 也 很 常用 一 样 : 





def cluster distance(cluster1, cluster2, distance_agg=min): 
"""compute all the pairwise distances between cluster1 and cluster2 
and apply _distance agg_ to the resulting list""" 
return distance_agg([distance(input1, input2) 
for input1 in get_values(cluster1) 
for input2 in get_values(cluster2)]) 


我 们 将 借助 合并 次 序 踪迹 (slot) 来 跟踪 合并 的 顺序 。 这 个 数字 越 小 ， 表 示 合 并 的 次 序 越 
靠 后 。 这 意味 着 ， as 类 的 时 候 ， 可 以 根据 合并 次 序 的 值 ， 从 最 小 到 最 大 依次 


进行 。 由 于 叶 聚 类 不 是 合并 而 来 的 (这 意味 着 无 需 分 拆 它们 )， 因 此 ， 我 们 将 它们 合并 次 
序 的 值 规定 为 无 穷 大 : 














def get merge_order(cluster): 
if is_leaf(cluster): 
return float('inf') 
else: 
return cluster[0] # merge_order 是 二 元 组 中 的 第 一 个 元 素 
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现在 我 们 可 以 创建 聚 类 算法 了 : 


def bottom up_cluster(inputs, distance_agg=min): 
# 最 开始 每 个 输入 都 是 一 个 叶 聚 类 /一 元 组 


clusters = [(input,) for input in inputs] 

















# 只 要 剩余 一 个 以 上 的 聚 类 …… 
while len(clusters) > 1: 
# 就 找 出 最 近 的 两 个 聚 类 
c1，c2 = min([(cluster1i, cluster?2) 
for i, cluster1 in enumerate(clusters) 
for cluster2 in clusters[:i]], 
key=lambda (x, y): cluster distance(x, y, distance_agg)) 





# 从 聚 类 列表 中 将 它们 移 除 


clusters = [c for c in clusters if c != cl and c != c2] 





# 使 用 merge_order = 剩余 聚 类 的 数目 来 合并 它们 


merged_cLuster = (len(clusters), [ci1, c2]) 


# 并 添加 它们 的 合并 


clusters.append(merged cluster) 








# 当 只 剩 一 个 聚 类 时 ,返回 它 
return clusters[0] 


它 的 使 用 方法 非常 简单 : 








base_cluster = bottom up_cluster(inputs) 
这 将 得 到 一 个 聚 类 ， 简 单 表 示 如 下 : 


(0, [(1, [(3, [(14, [(18, [([19, 28],), 
([21, 27],)]), 
([20, 23],)]), 
([26, 13],)]), 
(16; [([114; 15],), 
([13, 13],)])]), 
(2, [(4, [(5， [(9， [(11, [([-49, 0],), 
([-46, Sa) 
([-41, 8],)]), 
([-49, 15],)])s 
([-34, 3 
(6, [(7， [(8， [(10， [CL:=22; -16],), 
([-19, =s14],)]); 
([=25% -9],)])， 
(13, L(15, [(17， LCE=11; -6],)， 
(2 -8],)])， 
([-14, <] 站 
([-18, -3],)])])， 
12，[([-13，-19],)， 
([-9, -16],)])])1)]) 


对 于 每 一 个 合并 而 来 的 聚 类 ， 我 都 会 将 其 子 聚 类 纵向 连接 。 当 我 们 说 “0 号 聚 类 ”为 合并 









































次 序 为 0 的 聚 类 时 候 ， 你 可 以 将 此 理解 为 


。 0 号 聚 类 是 由 1 号 聚 类 和 2 号 聚 类 合并 得 到 的 ， 

。 a ners eh 

。 16 号 聚 类 是 由 叶 节 点 [11，15] 和 叶 节 点 [13，13] 合并 得 到 的 。 
。 De i 








因为 我 们 有 20 个 输入 ， 所 以 只 要 经 过 19 次 合并 ， 便 能 得 到 这 个 聚 类 。 ee 


聚 类 是 通过 合并 叶 节 点 [19，28] 和 叶 节 点 [21，27] 得 到 的 。 而 最 后 一 个 合并 而 来 的 聚 


则 是 0 号 聚 类 。 


但 是 ， 一 般 情况 下 我 们 不 喜欢 这 种 繁琐 的 文字 表达 方法 。( 不 过 话 又 说 回 





来 ， 对 于 创 





建 一 


个 用 户 友好 型 的 可 视 化 聚 类 分 层 结构 ， ee 





函数 ， 使 其 可 以 通过 执行 适当 次 数 的 分 拆 动作 来 产生 任意 数量 的 聚 





def generate_clusters(base_cluster, num_clusters): 
# 开始 的 列表 只 有 基本 聚 类 


clusters = [base_cLuster] 











只 要 我 们 还 没有 足够 的 聚 类 …… 

while len(clusters) < num clusters: 

# 选择 上 一 个 合并 的 察 类 

next_CLuster = min(clusters, key=get_ merge_order) 

# 将 它 从 列表 中 移 除 

clusters = [c for c in clusters if c != next_cluster] 
# 并 将 它 的 子 聚 累 添 加 到 列表 中 ( 即 拆 分 它 ) 


clusters.extend(get _children(next_cluster)) 








oe 


# 一 旦 我 们 有 了 足够 的 聚 类 …… 


return clusters 


举例 来 说 ， 如 果 我 们 想 要 生成 三 个 聚 类 ， 可 以 使 用 下 列 代码 : 


three_clusters = [get_vaLues(CLuster) 
for cluster in generate clusters(base_cluster, 3) 





利用 下 面 的 代码 ， 我 们 可 以 轻松 绘制 其 图 形 : 


7 














for i, cluster, marker, color in zip([1, 2, 3], 
three_clusters, 
[Dor], 
"Eg bs 

xs, ys = zip(*cluster) # 魔法 般 的 解压 方式 


plt.scatter(xs, ys, color=color, marker=marker) 


# 问 聚 类 的 均值 添加 一 个 数字 
x, y = vector_mean(cluster) 
plt.plot(x, y, marker='$' + str(i) + '$', color='black') 


] 
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pPLt.titLe(" 利 用 最 短 距 离 得 到 的 三 个 自 下 而 上 的 聚 类 ") 
pLt.xLabetL(" 市 中 心 以 东 的 街区 ") 
plt.ylabel(" 市 中 心 以 北 的 街区 ") 
plt.show() 








与 大 均值 算法 相 比 ， 我们 得 到 了 一 个 大 不 相同 的 结果 ， 具 体 如 图 19-6 所 示 。 














利用 最 短 距离 得 到 的 三 个 自 下 而 上 的 聚 类 


30 


20 


10 


市 中 心 以 北 的 街区 


一 10 


一 30 
一 60 一 40 一 20 0 20 40 
市 中 心 以 东 的 街 











x 














19-6: 利用 最 短 距离 得 到 的 三 个 自 下 而 上 的 聚 类 

正如 我 们 上 面 提 到 的 ， 这 是 因为 在 cluster_distance 国 数 中 使 用 参数 min 时 往往 会 得 到 链 
状 聚 类 。 相 反 ， 如 果 我 们 使 用 参数 mnax (这 能 得 到 更 加 紧凑 的 聚 类 ) ， 将 得 到 看 上 去 与 图 
19-7 所 示 的 3-means 无 异 的 结果 。 




















以 上 的 bottom_up_clustering 的 实现 代码 相对 来 说 已 经 很 简单 了 ， 但 是 计 
算 效 率 依然 低 得 吓人 。 特 别 是 ， 在 每 一 步 它 都 要 重新 计算 每 对 输入 之 间 的 距 
离 。 更 有 效 的 实现 方法 是 ， 预 先 算 出 每 对 输入 之 间 的 距离 ， 然 后 在 cluster_ 
distance 里 面 进行 查找 。 一 个 真正 高 效 的 实现 方法 可 能 还 需要 存储 上 一 步 的 


cluster_distance, 
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图 19-7: 利用 最 大 距离 得 到 的 三 个 自 下 而 上 的 聚 类 


19.7 ”延伸 学 习 


。 scikit-learn 库 中 提供 了 一 个 单独 的 模块 sklearn.cluster (http://scikit-learn.org/stable/ 
modules/clustering.html) , 其 中 含有 多 个 聚 类 算法 ,包括 KMeans 和 Ward 分 级 聚 类 算法 (该 
算法 使 用 了 不 同 的 聚 类 合并 规则 ) 。 

。 Scipy (http://www.scipy.org/) 模块 也 有 两 个 聚 类 模型 ， 即 scipy.cluster.vq ( 它 使 用 在 
均值 算法 ) 模型 和 scipy.cluster.hierarchy ( 它 使 用 多 种 层次 聚 类 算法 ) 模型 。 
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第 20 章 


目 然 语 言 处 理 





他 们 刚 从 一 场 语言 的 盛 宾 上 偷 了 些 残 羡 冷 炙 回 来 。 





威廉 水 士 比 亚 


自然 语言 处 理 (natural language processing，NLP) 是 指 与 语言 有 关 的 各 种 计算 技术 。 这 是 
一 个 广泛 的 领域 ， 但 我 们 这 里 只 介绍 几 种 相关 的 技术 ， 它 们 简约 却 不 简单 。 





20.1 词 云 

在 第 1 章 中 ， 我 们 曾经 计算 过 用 户 兴趣 词汇 的 数量 。 为 了 使 单词 及 其 数量 可 视 化 ， 一 种 方 
法 是 使 用 词 云 ， 它 不 仅 能 够 以 艺术 化 的 形式 展示 单词 ， 而 且 还 能 使 单词 的 大 小 与 其 数量 呈 
正比 。 



































但 是 ， 一般 情况 下 ， 数 据 科学 家 并 不 看 重 词 云 ， 这 在 很 大 程度 上 是 因为 单词 的 布局 没有 任 
何 特殊 意义 ， 顶 多 意味 着 “这 里 还 有 一 些 空 ， 可 以 放 上 一 个 单词 ”而 已 。 


上 














当 你 不 得 不 生成 一 个 词 云 的 时 候 ， 不 妨 考 虑 一 下 能 否 透 过 词 的 坐标 传达 某 些 东 西 。 举 例 来 
说 ,假如 你 收集 了 一 些 与 数据 科学 相关 的 流行 语 ， 那 么 对 于 每 一 个 流行 语 ， 你 可 以 用 两 个 
介 于 0 至 100 之 间 的 数字 来 描述 ， 第 一 个 数字 代表 它 在 招聘 广告 中 出 现 的 频次 ， 第 二 个 数 
字 是 在 简历 中 出 现 的 频次 : 




















data = [ ("big data", 100, 15), ("Hadoop", 95, 25), ("Python", 75, 50), 
("R", 50, 40), ("machine learning", 80, 20), ("statistics", 20, 60), 
("data science", 60, 70), ("analytics", 90, 3), 
("team player", 85, 85), ("dynamic", 2, 90), ("synergies", 70, 0), 
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("actionable insights", 40, 30), ("think out of the box", 45, 10), 
("self-starter", 30, 50), ("customer focus", 65, 15), 
("thought leadership", 35, 35)] 








词 云 的 做 法 ， 只 不 过 就 是 和 


i 


用 很 酷 的 字体 把 各 个 单词 布置 到 页 面 上 罢了 (图 20-1)。 
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图 20-1: 由 热门 术语 组 成 的 词 去 


这 看 起 来 虽然 整洁 ， 但 并 没有 告诉 我 们 任何 事情 。 一 个 更 有 趣 的 方法 可 能 是 将 它们 分 散 开 
， 利 用 水 平 位 置 表示 其 在 招聘 广告 中 的 流行 度 ， 用 垂直 位 置 表示 其 在 简历 中 的 流行 度 ， 
样 就 能 形象 地 传达 一 些 信 息 (图 20-2) : 















































卫 洲 














def text_sizel(total): 
"""equals 8 if total is 0, 28 if total is 200""" 
return 8 + total / 200 * 20 


for word, job_popularity, resume_popularity in data: 
plt.text(job_popularity, resume_popularity, word, 

ha='center', va='center', 
size=text_size(job_popularity + resume_popularity)) 

plt.xlabel("Popularity on Job Postings") 

plt.ylabel("Popularity on Resumes") 

plt.axis([0, 100, 0, 100]) 

plt.xticks([]) 

plt.yticks([]) 

plt.show() 
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图 20-2: 一 个 更 有 意义 (尽管 不 如 先前 那么 美观 ) 的 词 云 


20.2 n-grams 模 型 








DataSciencester 负责 搜索 引擎 营销 的 副 总 突 发 奇想 ， 要 创建 数 以 千 计 的 数据 科学 方 下 








[的 








Web 页 面 ， 以 便 人 们 在 搜索 与 数据 科学 有 关 的 词语 时 ， 我 们 的 网 站 能 够 在 搜索 结果 中 的 排 
名 更 加 靠 前 。( 你 试图 向 他 解释 ， 由 于 搜索 引擎 的 算法 已 经 足够 聪明 了 ， 所 以 这 种 做 法 很 














难 奏效 ， 但 是 他 根本 就 不 听 这 一 套 。) 
当然 ， 他 既 不 想 亲 自 编写 数 以 千 计 的 网 页 ， 也 不 打算 雇用 一 批 “水 军 ” 来 做 这 件 事 情 。 














相 


反 ， 他 向 你 咨询 是 否 可 以 通过 编程 方式 来 生成 这 些 网 页 。 为 此 ， 我 们 需要 寻找 某 种 方法 来 





对 语言 进行 建 模 。 





这 种 方法 当然 是 有 的 ， 比 如 首先 搜集 一 批文 档 ， 然 后 利用 统计 方法 得 到 一 个 语言 模型 。 





在 


我 们 的 例子 中 ， 我 们 将 从 Mike Loukides 的 文章 “什么 是 数据 科学 ?” (https://www.oreilly. 


com/ideas/what-is-data-science) 着 手 。 


就 像 在 第 9 章 中 所 做 的 那样 ， 我 们 将 使 用 一 些 Web 请 求 命令 (requests) 和 BeautifulSoup 





来 检索 数据 。 不 过 ， 这 里 有 几 个 问题 需要 引起 我 们 的 注意 。 
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第 一 个 问题 是 ， 文 本 中 的 单 引号 实际 上 就 是 Unicode 字符 u"\u2919"。 我 们 可 以 创建 一 个 辅 
助 函 数 ， 用 正常 的 单 引 号 来 取代 它们 : 
def fix_unicode(text): 
return text.replace(uy"\y2019", "'") 
第 二 个 问题 是 ， 在 获得 了 网 页 的 文本 之 后 ， 我 们 需要 把 它 做 成 一 个 由 单词 和 句号 组 成 的 序 
列 (这样 我 们 就 可 以 知道 句子 的 结尾 在 哪里 )。 为 此 ， 我 们 可 以 借助 于 re.findall() 函数 
来 完成 : 











from bs4 import BeautifulSoup 

import requests 

url = "http://radar.oreilly.com/2010/06/what-is-data-science.html" 
htmL = requests.get(uUrL) .text 

soup = BeautifulSoup(html, "htmL5Lib ') 


content = soup.find("div", "entry-content")  # 找到 entry-content div 


regex = r"[\w']+|[\.]" # 匹配 一 个 单词 或 一 个 句点 





document = [] 


for paragraph in content("p"): 
words = re.findall(regex, fix_unicode(paragraph.text)) 
document .extend(words) 














当然 ， 我 们 可 以 〈 也 应 该 ) 进一步 清理 这 些 数据 。 文 档 中 依然 存在 一 些 多 余 的 文字 〈 例 
如 ， 第 一 个 字 “Section” 就 多 余 )， 同 时 ， 我 们 是 利用 句点 来 断 名 的 Slam, 遇 到 “Web 
2.0” 就 会 出 问题 )。 此 外 ， 文 档 中 还 散布 了 一 些 标题 和 列表 。 尽 管 如 此 ， 这 个 文档 已 经 可 
以 凑合 着 用 了 。 














将 文本 做 成 了 单词 序列 之 后 ， 我 们 就 可 以 通过 以 下 方式 对 语言 进行 建 模 了 : 给 定 某 个 起 始 
单词 (比如 “book”)， 我 们 可 以 找 出 源 文档 中 所 有 在 它 后 面 出 现 过 的 那些 单词 (这 里 是 
J os omens A loool Js 我 们 从 中 随机 选择 一 个 来 作为 下 一 个 
单词 ， 然 后 重复 这 个 过 程 ， 直 到 我 们 遇 到 一 个 名 点 为 止 ， 因 为 句点 就 意味 着 句子 的 结束 。 
我 们 将 这 个 模型 称 之 为 二 元 模型 (bigram model) ， 因 为 这 完全 是 由 原始 数据 中 2 个 词 (一 
个 词 对 ) 同时 出 现 的 频率 决定 的 。 


那么 起 始 单词 昵 ? 实 际 上 ， 我 们 只 要 从 句点 后 面 的 单词 中 随机 选择 就 行 了 。 首 先 ， 让 我 们 
预先 计算 出 可 能 的 单词 语 次 转变 。 回 想 一 下 ， 对 于 zip 来 说 ， 只 要 输入 中 有 一 个 已 经 处 理 
完毕 ， 它 就 会 停 下 来 ， 因 此 ， 我 们 可 以 利用 zip(document，document[1:]) 求 出 文档 中 有 多 
少 对 连续 元 素 : 


























bigrams = zip(document, document[1:]) 

transitions = defaultdict(list) 

for prev, current in bigrams: 
transitions[prev].append(current) 
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下 面 我 们 就 可 以 生成 句子 了 : 
def generate_using_bigrams(): 

current = "." # 这 意味 着 下 一 个 单词 是 一 个 新 句子 的 开头 

result = [] 

while True: 
next_word_candidates = transitions[current] # 双 连 词 (current，_) 
current = random.choice(next_word_candidates) # 随机 选择 一 个 
result.append(current) # 将 其 附加 到 结果 中 
if current == ".": return " ".join(result) # 如 果 是 ".", 就 完成 了 


它 产生 的 那些 句子 都 是 些 无 意义 的 数据 ， 不 过 你 可 以 把 这 些 句 子 放 到 网 站 上 ， 以 让 网 站 看 
起 来 更 能 与 数据 科学 挂钩 。 举 例 来 说 : 


If you may know which are you want to data sort the data feeds web friend someone on 
trending topics as the data in Hadoop is the data science requires a book demonstrates why 
visualizations are but we do massive correlations across many commercial disk drives in 
Python language and creates more tractable form making connections then use and uses it 


to solve a data. 





Bigram Model 


如 果 我 们 使 用 三 元 模型 (trigrams) 的 话 ， 就 能 够 降低 这 些 句 子 无 意义 的 程度 。 所 谓 三 元 模 
型 ， 就 是 使 用 三 个 连续 的 词 得 到 的 模型 。( 更 一 般 地 讲 ， 你 还 可 以 考虑 由 个 连续 的 单词 
得 到 的 n-grams 模型 ， 不 过 对 于 我 们 来 说 ， 由 三 个 词组 成 的 就 足够 了 。) 现在 ， 这 种 语 次 转 
变 将 取决 于 前 两 个 单词 ， 

trigrams = zip(document, document[1:], document[2:]) 


trigram_ transitions = defaultdict(list) 
starts := |] 


for prev, current, next in trigrams: 


if prev == ".": # 如 果 前 一 个 "单词 "是 个 句点 
starts.append(current) ”# 那么 这 就 是 一 个 起 始 单词 








trigram _ transitions[(prev，current)].append(Cnext) 


需要 注意 的 是 ， 现 在 我 们 必须 将 这 些 起 始 词 单独 记录 下 来 。 我 们 可 以 使 用 几乎 相同 的 方法 
来 生成 句子 : 





def generate_using_trigrams(): 
current = random.choice(starts) # 随机 选择 一 个 起 始 单词 





prev = "." # 前 面 加 一 个 句点 '." 
result = [current] 
while True: 


next_word_candidates = trigram transitions[(prev, current)] 
next_word = random.choice(next word_candidates) 
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prev, current = current, next_word 
result.append(current) 


if current == ".": 
return " ".join(result) 


这 次 得 到 的 句子 看 起 来 要 好 一 些 : 


In hindsight MapReduce seems like an epidemic and if so does that give us new insights 


into how economies work That” s not a question we could even have asked a few years 


there has been instrumented. 











Trigram Model 


当然 ， 它 们 之 所 以 看 起 来 更 好 一 些 ， 是 因为 生成 过 程 的 每 一 步 中 ， 所 面临 的 选择 要 更 少 一 


些 ， 其 至 有 了 时候 只 有 一 种 选择 。 这 就 意味 着 生成 的 句子 (或 至 少 是 长 短语 ) 经 常 跟 原始 数 
据 中 的 一 字 不 差 。 更 多 的 数据 会 有 所 帮助 ， 此 外 ， 如 果 从 多 篇 数据 科学 方面 的 文章 中 收集 




















n-grams， 收 到 的 成 效 会 更 好 。 


20.3 ”语法 

















还 有 一 种 语言 建 模 方法 ， 那 就 是 利用 语法 规则 (grammar) 来 生成 符合 要 求 的 句子 。 在 小 
学 的 时 候 ， 我 们 就 已 经 知道 了 词 的 词类 及 其 组 合 方 式 。 例 如 ， 如 果 你 有 一 个 非常 糟糕 的 英 
语 老 师 ， 你 必定 会 认为 句子 都 是 由 名 词 后 面 跟 动词 构成 的 。 这 样 的 话 ， 如 果 给 你 一 个 由 名 




















词 和 动词 组 成 的 列表 ， 你 就 可 以 根据 这 种 规则 来 造句 了 。 
下 面 ， 我 们 将 定义 一 个 稍微 复杂 的 语法 : 


grammar = { 
ES NB Vp]; 
"_NP” : ["_N", 
"A_NP_P_A_N"], 
Vp a Ws 
"V _NP"], 
_N"” : ["data science", "Python", "regression"], 
_A" : ["big", "linear", "logistic"], 
"_p"” : ["about", "near"], 
"_Vv"” : ["learns", "trains", "tests", "is"] 
} 





我 们 约定 ， 以 下 划 线 开头 的 名 称 表示 语法 规则 ， 它 们 需要 进一步 展开 ， 而 其 他 名 称 是 不 需 


要 进一步 处 理 的 终端 符号 。 


(“动词 短语 ”) 规则 。 





例如 ，"_s" 是 “句子” 规则， 其 产生 一 个 "_NP”(“ 名 词 短 语 ”) 规则 ， 后 面 紧 跟 一 个 "_vP" 
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动词 短语 规则 可 能 会 产生 一 个 "VV" ("动词") 规则 ， 也 可 能 会 产生 一 个 动词 规则 继 之 以 名 
词 短语 规则 。 


意 ,，"_NP" 规则 所 生成 的 规则 中 也 包括 其 自身 。 我 们 知道 ， 语 法 是 可 以 递归 的 ， 因 此 ， 
& 管 这 里 这 些 语法 非常 有 限 ， 但 是 照样 能 够 产生 无 穷 多 不 同 的 句子 。 





那么 ， 我 们 如 何 通 过 这 些 语法 来 生成 句子 呢 ? 我 们 不 妨 从 一 个 包含 句子 规则 的 列表 ["_5"] 
着 手 。 然 后 ， 我 们 将 不 断 展 开 每 一 项 规则 ， 即 从 该 规则 的 产物 中 随机 选择 一 个 来 代替 它 。 
当 我 们 的 列表 元 素 全 部 变 成 终端 符号 时 ， 我 们 就 可 以 停 下 来 了 。 


举例 来 说 ， 上 述 过 程 可 能 像 下 面 这 样 : 




















下 


['Python','_VP'] 

['Python','_V','_NP'] 

['Python','trains','_NP'] 

['Python','trains',' A','_NP','_P',' A','_N'] 
['Python','trains','logistic',' NP','_P',' A','_N'] 

[Python ,tratns.s. logtstie” ,N's Pp "A'S N"] 
['Python','trains','logistic','data science',' PpP',' A','_N'] 
['Python','trains','logistic','data science','about',' A', '_N'] 
['Python','trains','logistic','data science','about','logistic',' _N'] 
['Python','trains','logistic','data science','about','logistic','Python'] 








我 们 如 何 实现 它 呢 ? 首先 ， 我们 需要 创建 一 个 简单 的 辅助 函数 来 识别 终端 符号 : 


def is_ terminal(token): 
return token[0] != "_" 
接 下 来 ， 我 们 需要 编写 一 个 国 数 ， 将 一 个 标记 列表 变 成 一 个 句子 。 首 先 ， 我 们 需要 找到 第 
一 个 非 终 结 符号 标记 。 如 果 我 们 找 不 到 这 种 标记 ， 那 就 意味 着 我 们 已 经 有 一 个 完整 的 句 
子 ， 可 以 收工 了 。 





如 有 果 我 们 真 的 找到 了 一 个 非 终端 符号 ， 那 么 就 在 其 产物 中 随机 选择 一 个 。 如 果 选 中 的 是 个 
终端 符号 〈 即 一 个 单词 )， 那 么 直接 用 它 替 换 相应 的 标记 即 可 。 除 此 之 外 ， 如 果 选 中 的 是 
一 个 由 空格 符 分 隔 的 非 终端 符 标 记 ， 那 么 则 需要 进行 拆 分 ， 并 将 其 拼接 到 当前 标记 中 。 总 
之 ， 我 们 的 工作 就 是 在 一 组 新 标记 上 不 断 重复 这 个 过 程 。 











上 述 过 程 可 以 通过 下 列 代码 实现 : 





def expand(grammar, tokens): 
for i, token in enumerate(tokens ) : 


# 跳 过 终端 符号 
if is_ terminal(token): continue 
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# 如 果 这 一 步 我 们 发 现 了 一 个 非 终 端 符号 
# 需要 随机 选择 一 个 替代 者 


repLacement = random.choice(grammar[token]) 


if is_ terminal(replacement): 
tokens[i] = replacement 
else: 
tokens = tokens[:i] + replacement.split() + tokens[(i+1):] 


# 现在 展开 新 的 符号 列表 


return expand(grammar, tokens) 





# 如 果 到 达 这 一 步 ,就 找 出 了 所 有 的 终端 符号 ,可 以 收工 了 


return tokens 








现在 我 们 可 以 生成 句子 了 : 


def generate_sentence(grammar ) : 
return expand(grammar, ["_S"]) 


只 要 我 们 不 断 改 变 语法 一 一 例如 添加 更 多 的 单词 、 添 加 更 多 的 规则 、 添 加 各 种 词类 等 一 一 
就 能 得 到 足够 多 的 网 页 来 满足 公司 的 需要 。 


实际 上 ， 当 语法 用 于 另 一 个 方向 时 ， 会 变 得 更 加 有 趣 。 给 定 一 个 句子 ， 我 们 就 可 以 用 语法 
来 解析 句子 。 这 就 能 帮助 我 们 识别 主语 和 动词 ， 从 而 理解 句子 的 含义 。 


用 数据 科学 来 生成 文本 的 确 是 个 妙招 ， 但 更 神奇 的 是 ， 它 还 可 以 用 来 理解 文本 。( 这 方 男 
的 程序 库 请 参阅 16.6 节 “ 延 伸 学 习 ” 部 分 。) 


20.4 题 外 话 : 吉 布 斯 采样 


根据 一 些 概率 分 布 来 生成 样本 是 非常 简单 的 事情 。 我 们 可 以 通过 以 下 这 行 代码 得 到 一 些 均 
匀 分 布 的 随机 变量 : 


























random.random() 
以 及 用 以 下 代码 得 到 一 些 正 态 分 布 的 随机 变量 : 
inverse_normal_cdf(random.random()) 


但 某 些 概率 分 布 却 很 难 进 行 采样 。 当 我 们 只 知道 一 些 条 件 分 布 时 ， 可 以 通过 吉 布 斯 采样 技 
术 根 据 多 维 分 布 来 生成 样本 。 

例如 ， 假 设 我 们 在 掷 两 只 骨 子 。 这 里 用 * 表示 第 一 般 子 的 点 数 ， 表示 两 个 鹏 子 的 点 数 之 
和 。 假 设 我 们 要 产生 大 量 形 如 (x, y) 的 数据 对 ， 这 种 情况 下 ， 我 们 可 以 直接 通过 下 列 代码 
来 轻松 生成 所 需 样本 : 
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def roll a die(): 
return random.choice([1,2,3,4,5,6]) 


def direct_ sample(): 
d1 = roll_a _ die() 
d2 = roll_a_die() 
return di, di + d2 




















但 是 ， 这 里 假设 你 只 知道 条 件 分 布 。 在 已 知道 x 的 条 件 下 求 y 的 分 布 是 很 容易 的 : 如 果 你 
知道 了 x 的 值 ， 那 么 就 有 同等 机 会 等 于 x+1，x+2，x+3，x+ 4，x+5，x+6: 
def random y_given_x(x): 


'""equally likely to be XY + 1, X+2,...,X+6""" 
return x + roll_a_die() 

















如 果 将 已 知 条 件 反 过 来 ， 事 情 会 变 得 更 加 复杂 。 举 例 来 说 ， 如 果 你 知道 ?为 2， 那 么 x 必 
定 为 1 (因为 具有 当 两 个 仍 子 的 点 数 都 为 1 的 时 候 ， 点 数 之 和 才 可 能 为 2) 。 如 果 你 知道 y 
为 3， 那 么 x 有 等 同 的 机 会 为 1 或 2。 类 似 地 ， 如 果 y 为 11， 那 么 x 要 么 为 5， 要 么 为 6: 























def random x_given_y(y): 
if y <= 7: 

4 如 果 点 铬 为 或 以 下 的 数 , 那 么 第 一 个 从 子 的 点 数 有 等 同 的 机 会 为 
# 1，2，…，( 总 点 数 - 
return random.randrange(1, y) 

else: 
# 如 果 点 数 为 7 或 以 上 的 数 ,那么 第 一 个 骨 子 的 点 数 有 等 同 的 机 会 为 
# (total 6)， (总 点 数 二 5)s “i 6 
return random.randrange(y - 6, 7) 


吉 布 斯 抽样 的 方法 是 先 从 任意 (有效 ) 的 x 和 ?了 值 入 手 ， 然 后 不 断 用 条件 下 随机 选择 的 
x 值 替换 原来 的 x， 并 用 * 条 件 下 随机 选择 的 7 值 奉 换 原来 的 yy。 重复 一 定 次 数 后 ， 得 到 的 
x 值 和 y 值 就 可 以 作为 根据 无 条 件 的 联合 分 布 获取 的 样本 了 : 





def gibbs_sample(num_iters=100): 
x, y = 1, 2# doesn't really matter 
for _ in range(num_iters): 
x = random x_given_y(y) 
y = random y_given x(x) 
return x, y 


过 下 列 代码 你 会 发 现 ， 这 种 取样 方法 与 直接 取样 的 效果 相似 : 


def compare_distributions(num_samples=1000): 
counts = defauLtdict(Lambda: [0, 0]) 
for _ in range(num_samples): 
counts[gibbs_sample()][0] += 1 
counts[direct sample()][1] += 1 
return counts 


我 们 将 在 接 下 来 的 部 分 使 用 这 种 取样 方法 。 
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20.5 ”主题 建 模 

在 第 1 章 我 们 建立 “你 应 该 知道 的 数据 科学 家 ”推荐 系统 的 时 候 ， 我 们 只 是 根据 科学 家 与 
读者 的 兴趣 是 否 严格 匹配 来 进行 推荐 的 。 

要 想 理解 我 们 的 用 户 ， 更 高 级 的 方法 是 识别 这 些 兴 趣 背后 的 相关 主题 。 有 一 种 叫 作 隐 爹 狄 
利克 雷 分 析 (latent dirichlet analysis，LDA) 的 技术 ， 常 用 来 确定 一 组 文档 的 共同 主题 。 我 
们 会 用 它 来 分 析 包 含 每 个 用 户 的 兴趣 的 那些 文档 。 





这 里 的 LDA 与 第 13 章 中 的 朴素 贝 叶 斯 分 类 器 有 一 些 相似 之 处 ， 它 们 都 是 用 于 处 理 文档 的 
概率 模型 。 我 们 将 尽量 避 开 一 些 数学 细节 问题 ， 但 对 于 该 模型 的 某 些 假设 却 不 得 不 说 ， 如 
下 所 述 。 


。 存在 固定 数目 的 主题 ， 即 天 个 。 

。 有 一 个 给 每 个 主题 在 单词 上 的 概率 分 布 赋值 的 随机 变量 。 你 可 以 把 这 个 分 布 看 作 是 单词 
w 在 给 定 主题 中 出 现 的 概率 。 

。 还 有 另 一 个 随机 变量 来 指出 每 个 文档 在 主题 下 面 的 概率 分 布 。 你 可 以 将 这 个 分 布 看 作 是 
文档 4d 中 各 主题 所 占 比 重 。 

。 文档 中 各 个 单词 的 生成 方式 为 ， 首 先 (根据 文档 的 主题 分 布 情况 ) 随机 选择 一 个 主题 ， 
然后 (根据 该 主题 下 面 各 单词 的 分 布 情况 ) 随机 选择 一 个 单词 。 


特别 地 ， 我 们 要 建立 一 个 文档 (documents) 集合 ， 其 中 每 个 文档 都 是 一 个 单词 的 列表 。 


同时 ， 我 们 还 要 建立 一 个 相应 的 document_topics 集合 ， 以 便 给 每 个 文档 中 的 每 个 单词 都 
指定 一 个 主题 (这 里 用 0 到 K-1 之 间 的 一 个 数字 表示 )。 









































这 样 的 话 ， 第 4 个 文档 中 的 第 5 个 单词 就 可 以 表示 为 : 
documents[3][4] 
而 这 个 选 定 的 单词 对 应 的 主题 可 以 表示 为 : 


document_topics[3][4] 





这 非常 显 式 地 定义 了 每 个 文档 在 各 个 主题 上 的 分 布 情况 ， 同 时 也 隐 式 地 定义 了 每 个 主题 在 
各 个 单词 上 面 的 分 布 情况 。 


我 们 可 以 估算 出 主题 1 产生 一 个 特定 单词 的 可 能 性 ， 方 法 是 将 主题 1 产生 该 单词 的 次 数 除 
以 主题 1 产生 任意 单词 的 次 数 。( 类 似 地 ， 我 们 在 第 13 童 中 建立 垃圾 邮件 过 滤器 时 ， 也 曾 
经 用 每 个 单词 出 现在 垃圾 邮件 中 的 次 数 与 这 些 单词 出 现在 垃圾 邮件 中 的 总 次 数 进 行 过 相应 
的 比较 。) 














这 些 主题 都 只 是 些 数 字 ， 不 过 ， 我 们 可 以 用 其 权重 最 大 的 单词 给 它们 取 一 个 描述 性 的 名 
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称 。 接 下 来 ， 我 们 只 需 设法 生成 docunent_toptcs 即 可 。 这 时 ， 吉 布 斯 取样 技术 就 派 上 用 
场 了 。 


首先 ， 我 们 以 完全 随机 的 方式 给 所 有 文档 中 的 每 个 单词 都 赋予 一 个 主题 。 现 在 ， 我 们 就 以 
每 次 一 个 单词 的 方式 遍历 所 有 文档 。 对 于 给 定 的 单词 和 文档 ， 我 们 需要 根据 该 文档 中 主题 
(当前 ) 的 分 布 情况 以 及 相对 于 该 主题 各 单词 (当前 ) 的 分 布 情况 来 建立 相应 的 权重 。 然 
后 ， 我 们 会 使 用 这 些 权重 给 这 个 单词 选取 新 主题 。 如 果 将 该 过 程 和 迭代 多 次 ， 我 们 就 能 利用 
主题 -单词 分 布 和 文档 - 主题 分 布 完成 联合 取样 。 


首先 ， 我们 需要 一 个 函数 ， 根 据 任意 一 组 权重 来 随机 选择 一 个 索引 : 




















Hm 








def sample_from(weights): 
"""returns i with probability weights[i] / sum(weights)""" 
total = sum(weights) 











rnd = total * random.random() # 在 0 和 总 数 之 间 均 匀 分 布 
for i, w in enumerate(weights ) : 
rnd -= WwW # 返回 最 小 的 1 
if rnd <= 0: return i # 因此 weights[0] + … + weights[i] >= rnd 























例如 ， 如 果 你 给 它 的 权重 为 [1, 3, 1]， 那 么 五 分 之 一 的 时 间 将 返回 0， 五 分 之 一 的 时 间 将 返 
回 1， 同 时 还 有 五 分 之 三 的 时 间 将 返回 2。 


我 们 的 文档 包含 的 是 用 户 的 各 种 兴趣 ， 看 起 来 可 能 像 下 面 这 样 : 

















documents = [ 
["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"], 
["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"], 
["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"], 
["R", "Python", "statistics", "regression", "probability"], 
["machine learning", "regression", "decision trees", "libsvm"], 
["Python", "R", "Java", "C++", "Haskell", "programming Languages"] ， 
["statistics", "probability", "mathematics", "theory"], 
["machine learning", "scikit-learn", "Mahout", "neural networks"], 
["neural networks", "deep learning", "Big Data", "artificial intelligence"], 
["Hadoop", "Java", "MapReduce", "Big Data"], 
["statistics", "R", "statsmodels"], 
["C++", "deep learning", "artificial intelligence", "probability"], 
["pandas", "R", "Python"], 
["databases", "HBase", "Postgres", "MySQL", "MongoDB"], 
["libsvm", "regression", "support vector machines"] 


] 
我 们 将 设法 找 出 4 个 主题 ， 即 K = 4。 
为 了 计算 抽样 权重 ， 我 们 需要 明确 几 项 计数 。 下 面 ， 我 们 先 给 它们 创建 相应 的 数据 结构 。 
我 们 要 统计 每 个 文档 中 每 个 主题 出 现 的 次 数 ， 代 码 如 下 : 
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# 计数 的 一 个 列表 ,每 个 文档 各 有 一 个 列表 


document_ topic counts = [Counter() for _ in documents] 








我 们 要 统计 每 个 主题 中 每 个 单词 出 现 的 次 数 ， 代 码 如 下 : 
# 计数 的 一 个 列表 ,每 个 主题 各 有 一 个 列表 


topic word_counts = [Counter() for 





_ in range(K)] 


我 们 要 知道 每 个 主题 中 单词 的 总 数 ， 代 码 如 下 : 


# 数字 的 一 个 列表 ， 每 个 主题 各 有 一 个 列表 


topic_counts = [0 for _ in range(K)] 
下 面 的 代码 统计 每 个 文档 中 的 单词 总 数 : 
# 数字 的 一 个 列表 ,每 个 文档 各 有 一 个 列表 


document_Lengths = map(len, documents) 








下 面 代码 统计 不 同 单词 的 数量 : 


distinct words = set(word for document in documents for word in document) 
W = len(distinct_ words) 


另外， 下 列 代码 可 以 用 来 统计 文档 的 数量 : 
D = len(documents) 


一 旦 掌握 了 这 些 数据 ， 我 们 就 可 以 了 解 ( 比 如 说 ) documents[3] 中 与 主题 1 相关 的 单词 的 
数量 ， 有 具体 代码 如 下 所 示 : 


document_topic counts[3][1] 





同时 ， 我 们 还 可 以 找 出 与 主题 2 相关 的 单词 nlp 出 现 的 次 数 ， 具 体 代 码 如 下 所 示 : 
topic word_counts[2]["nlp"] 
现在 ， 我 们 已 经 为 定义 条 件 概率 函数 做 好 了 准备 。 就 像 在 第 13 章 中 那样 ， 这 里 的 每 个 主 


题 和 单词 都 需要 有 一 个 平滑 项 ， 来 确保 每 个 主题 在 任何 文档 中 被 选中 的 几率 都 不 能 为 0， 
同时 保证 每 个 单词 在 任何 主题 中 被 选中 的 几率 也 都 不 能 为 0: 














def p_topic_given_document(topic，d，aLpha=0.1): 
"""the fraction of words in document _d_ 
that are assigned to _topic_ (plus some smoothing)""" 


return ((document topic counts[d][topic] + alpha) / 
(document_lengths[d] + K * alpha)) 


def p_word_given_ topic(word, topic, beta=0.1): 
"""the fraction of words assigned to _topic_ 
that equal word_ (plus some smoothing)"”"”" 
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return ((topic_word_counts[topic][word] + beta) / 


(topic counts[topic] + W * beta)) 


然后 利用 下 列 代码 给 更 新 中 的 主题 确定 权重 : 


def topic weight(d, word, k): 


mm 


given a document and a word in that document， 
return the weight for the kth topic 


mm 


return p_word_given topic(word, k) * p_topic _ given document(k, d) 


def choose_new_topic(d, word): 
return sample_from([topic weight(d, word, k) 


for k in range(K)]) 























上 面 的 topic_weight 之 所 以 如 此 定义 ， 背 后 是 有 坚实 的 数学 理论 作为 依据 的 ， 不 过 其 中 的 


数学 细 
文档 ， 忆 


该 

















节 已 经 超出 了 本 书 的 讨论 范围 。 不 过 从 直观 的 角度 来 看 ， 如 有 果 已 知 一 个 单词 和 所 在 
b 么 该 单词 属于 某 主题 的 概率 取决 于 两 个 方面 ， 即 该 主题 属于 该 文档 的 可 能 性 以 及 
和 词 属于 该 主题 的 可 能 性 。 


这 就 是 我 们 所 需要 的 全 部 零 部 件 。 下 面 ， 我 们 开始 将 每 个 单词 随机 指派 给 一 个 话题 ， 并 计 


人 入 本 





目 应 的 计数 器 : 








random. seed(0) 
document_topics = [[random.randrange(K) for word in document] 


for document in documents] 


for d in range(D): 

for word, topic in zip(documents[d], document_topics[d]): 
document topic counts[d][topic] += 1 
topic word_counts[topic][word] += 1 
topic counts[topic] += 1 


我 们 的 目标 是 利用 主题 - 单词 分 布 和 文档 - 主题 分 布 进行 联合 采样 。 为 此 ， 我 们 可 以 通过 
之 前 定义 的 条 件 概率 进行 吉 布 斯 采样 ， 具 体 代码 如 下 所 示 : 








for iter in range(1000): 
for d in range(D): 


for 


i, (word, topic) in enumerate(zip(documents[d], 
document_topics[d])): 


# 从 计数 中 移 除 这 个 单词 /主题 
# 以 便 它 不 会 影响 权重 
document_topic counts[d][topic] -= 1 
topic word counts[topic][word] -= 1 
topic counts[topic] -= 1 
document_lengths[d] -= 1 








# 基于 权重 选择 一 个 新 的 主题 
new_topic = choose new_topic(d, word) 
document_topics[d][i] = new_topic 
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也 





# 现在 把 它 重新 加 到 计数 9 
document_topic_counts[d][new_topic] += 1 
topic word_counts[new_ topic][word] += 1 
topic counts[new_ topic] += 1 
document_lengths[d] += 1 





这 些 主题 都 是 什么 呢 ? 它们 只 是 些 数 字 而 已 : 0、1、2 和 3。 如 果 我 们 要 让 它们 拥有 名 称 
的 话 ， 必 须 亲 自给 它们 取 名 。 下 面 ， 让 我 们 来 找 出 权重 较 大 的 5 个 单词 ( 见 表 20-1), 上 其 
体 代 码 如 下 所 示 : 




















for k, word_counts in enumerate(topic word_counts): 
for word, count ;in word_counts.most_common(): 
if count > 0: print k, word, count 


表 20-1: 每 个 主题 中 最 常见 的 单词 





主题 0 主题 1 主题 2 主题 3 

Java 及 HBase regression 

Big Data statistics Postgres libsvm 

Hadoop Python MongoDB scikit-learn 

deep learning probability Cassandra machine learning 
artificial intelligence Pandas NoSQL neural networks 


根据 这 些 数据 ， 我 们 就 可 以 给 主题 取 名 了 : 


topic names = ["Big Data and programming Languages" ， 
"Python and statistics", 
"databases", 
"machine learning"] 





至 此 我 们 就 清楚 模型 是 如 何 将 主题 分 配 到 每 个 用 户 的 兴趣 上 面 了 : 


for document，topic_counts in zip(documents, document_topic_counts): 
print document 
for topic, count in topic_ counts.most_common(): 
if count > 0: 
print topic names[topic], count, 
print 





其 输出 结果 如 下 所 示 : 


['Hadoop', 'Big Data', 'HBase'’, 'Java', 'Spark', 'Storm', 'Cassandra'] 
Big Data and programming Languages 4 databases 3 

['NoSQL', 'MongoDB', 'Cassandra', 'HBase', 'Postgres'] 

databases 5 

['Python', 'scikit-learn', 'scipy', 'numpy', 'statsmodels', 'pandas'] 
Python and statistics 5 machine learning 1 


如 此 等 等 。 假 使 我 们 被 要 求 用 “ands” 作 为 某 个 主题 的 名 称 ， 那 么 我 们 很 可 能 需要 使 用 更 
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多 的 主题 ， 尽 管 更 可 能 的 情况 是 我 们 没有 足够 的 数据 来 学 习 。 


20.6 ”延伸 学 习 


。 Natural Language Toolkit (http:/www.nltk.org/) 是 Python 语言 一 个 流行 (和 非常 全 面 ) 


的 NLP 工具 库 。 
全 玫 

















对 于 这 个 库 , 已 经 有 专门 的 书籍 (http://www.nltk.org/book/) 对 它 进 行 








[的 介绍 ， 并 且 该 书 可 以 在 线 阅 读 。 
。 gensim (http://radimrehurek.com/gensim/) 是 一 个 用 于 主题 建 模 的 Python 库 ， 与 从 头 开 











始 建 模 相 比 ， 使 用 它 来 建 模 是 一 种 更 靠 谱 的 途径 。 
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网 络 分 析 





你 跟 周 遗事 物 的 所 有 联系 定义 了 你 是 谁 。 


一 一 亚 伦 : 奥康 奈 尔 

















当 我 们 面 对 许 多 有 趣 的 数据 问题 时 ， 如 果 把 它们 看 作 由 各 种 类 型 的 节点 (node) 和 连接 它 
们 的 边 (edge) 所 构成 的 网 络 ， 那 就 再 合适 不 过 了 。 


例如 ， 你 的 Facebook 好 友 可 以 看 作 一 个 网 络 中 的 节点 ， 而 连接 节点 的 边 可 以 看 作 朋 友 关 
系 。 另 外 一 个 不 太 明 显 的 例子 是 万 维 网 本 身 ， 甚 中 的 每 一 个 网 页 都 是 一 个 网 络 节 点 ， 而 从 
一 个 页 面 到 另 一 个 页 面 的 超 链接 则 是 这 个 网 络 的 边 。 











Facebook 中 的 朋友 关系 都 是 相互 的 ， 也 就 是 说 ， 如 果 我 是 你 的 Facebook 好 友 ， 那 么 你 也 
肯定 是 我 的 好 友 。 这 样 的 话 ， 我 们 就 可 以 说 这 种 网 络 中 的 边 是 无 方向 的 (undirected)。 但 
是 ， 超 链接 却 并 非 如 此 ， 即 如 果 我 的 网 站 链接 到 白宫 的 网 站 ， 并 不 表示 白宫 的 网 站 也 会 链 
接 到 我 的 网 站 。 我 们 称 这 种 类 型 的 边 为 有 方向 的 (directed)。 














我 们 下 面 会 介绍 这 两 种 类 型 的 网 络 。 


21.1 中 介 中 心 度 
在 第 1 章 中 ， 我 们 只 能 通过 每 位 用 户 的 好 友 数 量 来 计算 DataSciencester 网 络 中 的 关键 联系 
人 。 现 在 ， 我 们 已 经 有 足够 多 的 手段 来 寻找 其 他 的 计算 方法 了 。 下 面 ， 我 们 先 来 看 看 网 络 
中 的 用 户 ， 具 体 如 图 21-1 所 示 : 
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Users = [ 


{ "id": 0, "name": "Hero" }, 

{ "id": 1, "name": "Dunn" }, 

{ "id": 2, "name": "Sue" }, 

{ "id": 3, "name": "Chi" }, 

{ "id": 4, "name": "Thor" }, 

{ "id": 5, "name": "Clive" }, 
{ "id": 6, "name": "Hicks" }, 
{ "id": 7, "name": "Devin" }, 
{ "id": 8, "name": "Kate" }, 

{ "id": 9, "name": "Klein" } 


] 
以 及 用 户 之 间 的 好 友 关 系 : 


friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), 
(45 3) (5; 6), (53 7)s. (6 8), (C73 8)s (8; 9)] 


21-1: DataSciencester 网 络 











此 外 ， 我 们 还 给 每 个 用 户 的 dict 结构 添加 了 相应 的 朋友 列表 : 


for user in users: 
user["friends"] = [] 


for i, j in friendships: 
# 这 能 奏效 是 因为 users[i] 是 id 为 i 的 用 户 
users[i]["friends"].append(users[j]) # 添加 i 作为 j] 的 朋友 
users[j]["friends"].append(users[i]) # 添加 j 作 为 i 的 朋友 








当时 ， 我 们 对 度 中 心性 (degree centrality) 的 概念 不 其 满意 ， 因 为 它 与 网 络 中 直观 展现 在 
我 们 面前 的 关键 联系 人 不 其 相符 。 


另 一 种 度量 指标 是 中 介 中 心 度 (betweenness centrality) ， 它 可 以 用 来 找 出 经 常 位 于 其 他 节 
点 对 之 间 的 最 短路 径 中 的 人 。 具 体 而 言 ， 中 介 中 心 度 可 以 通过 办 加 布点 j 和 市 点 大 之 间 经 
过 节点 i 的 最 短路 人 径 所 占 比 例 ， 以 及 节点 7 和 之 外 所 有 的 节点 对 中 相应 的 比例 来 求 出 。 
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也 就 是 说 ， 如 果 我 们 想 计算 出 Thor 的 中 介 中 心 度 ， 首 先 要 计算 Thor 之 外 的 所 有 用 户 对 之 
间 的 最 短路 径 ， 然 后 再 统计 有 多 少 条 最 短路 径 通 过 了 Thor 这 个 节点 。 比 如 说 ，Chi (id 为 
3) 和 Clive (id 为 9) 之 间 唯 一 的 最 短路 径 经 过 了 Thor 这 个 节点 ， 而 Hero (id 为 0) 和 Chi 
(id 为 3) 之 间 的 两 条 最 短路 径 则 都 没有 经 过 Thor。 





因此 ， 作 为 第 一 步 ， 我 们 需要 找 出 所 有 用 户 对 之 间 的 最 短路 径 。 不 过 ， 尽 管 存 在 许多 可 以 
高 效 计 算 最 短路 径 的 尖端 算法 ， 但 是 按照 我 们 的 惯例 ， 这 里 将 采用 效率 虽 低 一 些 但 更 加 容 
易 理 解 的 算法 。 


这 个 算法 〈 一 个 广度 优先 搜索 的 实现 ) 在 本 书 中 算是 比较 复杂 的 一 种 ， 所 以 我 们 仔细 探讨 。 


1. 我 们 的 目标 是 建立 一 个 以 from_user 为 输入 的 函数 ， 它 能 够 找 出 到 达 其 他 每 个 用 户 的 所 
有 最 短路 径 。 

2. 我 们 将 通过 用 户 ID 组 成 的 列表 来 表示 路 径 。 由 于 每 条 路 径 的 第 一 个 节点 总 是 from_ 
user， 因 此 我 们 可 以 在 这 个 列表 中 将 该 有 D 忽略 。 也 就 是 说 ， 这 个 代表 路 径 的 列表 的 长 
度 等 于 该 路 径 本 身 的 长 度 。 

3. 我 们 将 维护 一 个 名 为 shortest_paths_to 的 字典 ， 其 键 为 用 户 ID， 其 值 为 以 该 用 户 ID 
结尾 的 路 径 构成 的 列表 。 如 果 最 短路 径 是 唯一 的 ， 那 么 这 个 列表 就 只 包含 一 个 路 径 。 如 

果 有 多 条 最 短路 径 的 话 ， 那 么 该 列表 将 包含 所 有 这 些 路 径 。 

4. 我 们 还 将 维护 一 个 名 为 frontier 的 队列 来 存放 那些 待考 察 的 用 户 ， 并 且 它 们 的 存放 顺 
序 就 是 相应 的 考察 顺 序 。 我 们 将 以 用 户 对 的 形式 一 一 即 (prev_user， usem) 来 进行 
存储 ， 这 样 就 能 了 解 我 们 是 如 何 到 达 每 一 个 用 户 的 。 这 个 队列 是 通过 from_user 的 所 有 
相 邻 节点 进行 初始 化 的 。( 当 然 ， 我 们 之 前 从 设 有 讨论 过 队列 ， 其 实 它 是 专门 为 “在 后 
端 进行 插入 ”操作 和 “在 前 端 进行 删除 ”操作 经 过 优化 的 数据 结构 。 在 Python 语言 中 ， 
队列 是 由 coLLections.deque 模块 来 实现 的 ， 实 际 上 它 是 一 种 双向 队列 。) 

5， 当 我 们 在 图 中 进行 探索 的 时 候 ， 每 当 发 现 新 的 邻居 布点 ， 只 要 还 不 知道 通 向 它们 的 最 短 
路 径 ， 就 将 它们 添加 到 队 尾 以 供 将 来 进一步 探索 ， 并 且 以 当前 用 户 作 为 其 prev_user。 

6. 当 我 们 把 一 个 用 户 从 队列 中 删除 时 ， 如 果 之 前 从 未 遇 到 过 该 用 户 ， 那 么 我 们 肯定 是 找到 
了 一 个 或 多 个 通 回 它 的 最 短路 径 : 沿 着 到 达 prev_user 的 每 个 最 短路 径 再 走 一 步 即 是 。 

7. 当 我 们 从 队列 中 删除 一 个 之 前 遇 到 过 的 用 户 时 ， 我 们 不 是 找到 了 另 一 个 最 短路 径 (这 种 
情况 下 我 们 应 该 将 其 添加 到 队 尾 )， 就 是 找到 了 一 个 更 长 的 路 径 (这 种 情况 下 不 用 将 其 
插入 队 尾 )。 

8. 当 队 列 中 已 经 没有 用 户 时 ， 说 明 我 们 已 经 搜 遍 了 整个 图 (或 者 至 少 也 是 起 始 用 户 所 能 够 
达到 的 部 分 ) ， 这 时 我 们 就 可 以 停止 了 。 




























































































我 们 可 以 将 这 些 步骤 放 和 一 个 〈 大 型 ) 国 数 中 ， 代 码 如 下 所 示 : 
from collections import deque 


def shortest_paths_from(from_uUser ) : 
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# 一 个 由 "user_id" 到 该 用 户 所 有 最 短路 径 的 字典 
shortest_paths_to = { from user["id"] : [[]] } 





# 我 们 需要 检查 的 (previous user ，next user) 队 列 
# 从 所 有 (from_user，friend_of_from_user) 对 开始 着 手 





frontier = deque((from user, friend) 
for friend in from_user["friends"]) 


# 直到 队列 为 空 为 止 


while frontier: 














prev_user, user = frontier.popleft() # 删除 该 用 户 
user_id = user["id"] # 即 队列 中 的 第 一 个 用 户 


# 若 要 疝 队 列 添加 内 容 

# 我 们 必须 知道 通 向 prev_user 的 某 些 最 短路 径 

paths_to_prev_user = shortest paths_to[prev_user["id"]] 
new_paths_to_user = [path + [user_id] for path ;in paths_to_prev_user] 


# 我 们 可 能 已 经 知道 了 一 条 最 短路 径 
oLd_paths_to_user = shortest paths_to.get(user_id, []) 


# 到 目前 为 止 , 我 们 看 到 的 到 达 这 里 的 最 短路 径 有 多 长 ? 
if old_paths_to_user: 

min_path_length = Len(oLd_paths_to_user[0]) 
else: 

min_path_length = float('inf') 








# 只 留 下 那些 刚 找到 的 不 太 长 的 路 径 

new_paths_to_user = [path 
for path in new_paths_to_user 
if Len(path) <= min_path_length 
and path not in oLd_paths_to_user] 


shortest_paths_to[user_id] = oLd_paths_to_user + new_paths_to_user 


# 将 这 些 从 未 谋面 的 "邻居 "添加 到 frontier 中 
frontier.extend((user, friend) 

for friend in user["friends"] 

if friend["id"] not in shortest_paths_to) 


return shortest_paths_to 
现在 我 们 可 以 将 这 些 dict 存放 到 各 个 节点 中 了 : 


for user in users: 
user["shortest_paths"] = shortest_paths_from(user) 


好 了 ， 现 在 终于 可 以 计算 中 介 中 心 度 了 。 对 于 任意 一 对 届 点 i 和 j， 我 们 都 知道 从 i 到 有 
对 条 最 短路 径 。 然 后 ， 对 应 于 每 一 条 这 样 的 最 短路 径 ， 我 们 上 只 要 给 该 路 径 中 的 每 个 节点 的 
中 心 度 加 ln 即 可 : 








for user in users: 
user["betweenness_centrality"] = 0.0 


for source in users: 
source id = source["id"] 
for target_id, paths in source["shortest_paths"] .iteritems() : 


if source id < target id: # 不 要 加 倍 计 数 
num_paths = Len(paths) # 有 多 少 最 短路 径 





contrib = 1 / num_paths # 中 心 度 加 1/n 
for path in paths: 
for id in path: 
if id not in [source_ id, target _id]: 
users[id]["betweenness_centrality"] += contrib 

















图 21-2: 根据 中 介 中 心 度 的 大 小 绘制 的 DataSciencester 网 络 

















如 图 21-2 所 示 ， 用 户 0 和 9 的 中 心 度 为 0 (因为 它们 不 在 其 他 用 户 之 间 的 任何 一 条 最 短路 
径 上 )， 而 用 户 3、4 和 5 则 都 具有 较 高 的 中 心 度 (因为 它们 都 位 于 多 条 最 短路 径 上 )。 








一 般 来 说 ， 中 心 度 的 数值 本 身 并 不 具有 多 大 意义 。 我 们 关心 的 是 每 个 布点 的 
中 心 度 数值 与 其 他 节点 的 相对 大 小 。 








此 外 ， 还 有 一 个 需要 关注 的 衡量 指标 ， 即 所 谓 的 接近 中 心 度 (closeness centrality)。 首 先 ， 
为 每 个 用 户 计算 其 疏远 度 (farness)， 即 该 用 户 到 所 有 其 他 用 户 的 最 短路 径 的 长 度 总 和 。 


有 多 
































由 于 我 们 已 经 计算 出 每 一 对 节点 之 间 的 最 短路 径 ， 因 此 ， 只 要 对 其 求 和 即 可 。( 如 
个 最 短路 径 ， 并 且 都 具有 相同 的 长 度 ， 那 么 我 们 只 考察 第 一 个 即 可 。) 





湛 


def farness(user): 
"""the sum of the lengths of the shortest paths to each other user 
return sum(len(paths[0]) 
for paths in user["shortest_paths"].values()) 


mm 
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这 样 一 来 ， 接 近 中 心 度 的 计算 量 就 很 小 了 ( 见 图 21-3) : 








for user in users: 
user["closeness centrality"] = 1 / farness(user) 


«| © op © 


21-3; 根据 接近 中 心 度 绘制 的 DataSciencester 网 络 
我 们 看 到 ， 尽 管 非常 靠近 中 心 的 节点 离 外 围 节 点 很 和 还， 但 是 图 中 各 节点 在 大 小 上 面 差 别 不 
是 很 大 。 


正如 我 们 所 看 到 的 那样 ， 计 算 最 短路 径 是 一 件 若 差事 。 因 此 ， 中 介 中 心 度 和 接近 中 心 度 很 
少 用 于 大 型 网 络 。 还 有 一 种 不 太 直 观 的 特征 向 量 中 心 度 (eigenvector centrality) ， 由 于 计算 
起 来 更 容易 ， 所 以 更 加 常用 。 


21.2 ”特征 向 量 中心 度 
要 想 介 绍 特征 向量 中 心 度 ， 我 们 就 不 得 不 讨论 特征 向 量 ， 而 要 想 计 论 特征 向 量 ， 我 们 就 必 
须 介 绍 和 矩阵 乘法 。 


21.2.1 和 矩阵 乘 ; 
假设 A 是 一 个 mx 后 矩阵 ,有 是 一 个 严 x 态 和 矩阵， 并 且 五 = 于 ， 那 么 这 两 个 和 抱 阵 的 乘积 
AB 则 是 一 个 nj Xx 矩阵， 其 中 第 Gj 项 为 : 















































Ai 了 Br ApByt + AnBy 


下 面 ， 我 们 仅 计 算 和 矩阵 4 的 第 i 行 (可 以 视 为 一 个 向 量 ) 与 算 阵 B 的 第 j 列 (也 可 以 视 为 
一 个 向 量 ) 的 点 积 ， 具体 代码 如 下 所 示 : 








def matrix_product_entry(A, B, i, j): 
return dot(get_ row(A, i), get_column(B, j)) 
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之 后 ， 我 们 就 可 以 通过 下 列 代码 实现 矩阵 的 乘法 运算 了 : 


def matrix_multiply(A, B): 
n1, k1 = shape(A) 
n2, k2 = shape(B) 
if kl1 15= nz2: 
raise ArithmeticError("incompatible shapes!") 


return make_matrix(n1, k2, partial(matrix_product_entry, A, B)) 


请 注意 ， 如 果 4 是 一 个 nxk 和 矩阵 ，B 是 一 个 kx1 算 了 泗 ， 那 么 4B 则 为 nx1 矩阵。 如 果 
我 们 将 一 个 向 量 看 作 是 一 维和 矩阵 ， 就 可 以 把 4 看 作 是 将 大 维 向 量 映 射 为 n 维 向 量 的 一 个 函 
数 ， 实 际 上 这 个 国 数 就 是 矩阵 乘法 。 





之 前 ， 我 们 将 向 量 简单 地 表示 为 列表 ， 实 际 上 两 者 之 间 是 不 能 完全 划 等 号 的 : 


Ve [1 2Z; 

v_as_matrix = [[1]， 
[2]， 
[3]] 


因此 ， 我 们 需要 定义 相应 的 辅助 函数 ， 以 便 实现 两 种 表示 形式 之 间 的 转换 : 


def vector_as_matrix(v): 
"""returns the vector v (represented as a list) as a Nn Xx 1 matrix"””"" 
return [[v_i] for vi in v] 


def vector_from matrix(v_as_matrix): 
"""returns the n x 1 matrix as a list of values""”" 
return [row[0] for row in v_as_matrix] 


如 此 一 来 ， 我 们 就 可 以 利用 matrix_multiply 来 定义 矩阵 运算 了 : 


def matrix_operate(A, v): 
VvV_as_matrix = vector_as_matrix(v) 
product = matrix_multiply(A, v_as_matrix) 
return vector_from matrix(product) 





当 4 是 一 个 方 阵 时 ， 此 操作 会 将 n 维 向 量 映射 为 男 一 个 n 维 向 量 。 对 于 某 和 矩阵 4 和 向 量 
v， 对 问 量 v 进行 4 变换 有 时候 会 等 效 于 用 一 个 标量 来 乘 向 量 v， 即 所 得 到 的 向 量 与 v 同 
向 。 当 发 生 这 种 情况 ( 且 v 不 是 零 向 量 ) 时 ,我 们 称 v 为 4 的 特征 向 量 。 同 时 ， 我 们 称 这 
个 乘 数 为 特征 值 (eigenvalue)。 








确定 矩阵 4 的 特征 向 量 的 一 种 可 行 方法 是 取 一 个 随机 向 量 v"， 然 后 利用 matrix_operate 对 
其 进行 调整 ， 从 而 得 到 一 个 长 度 为 1 的 向 量 ， 重 复 该 过 程 直 到 收敛 为 止 : 








def find_eigenvector(A，toLerance=0.00001) : 
guess = [random.random() for in A] 
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while True: 
result = matrix_operate(A，guess) 
Length = magnitude(result) 
next_guess = scalar_multiply(1/length, result) 


if distance(guess, next guess) < tolerance: 
return next_ guess, length # eigenvector, eigenvalue 
guess = next_guess 





通过 这 种 构造 方法 返回 的 向 量 guess 将 具备 这 样 的 特点 : 当 你 对 它 应 用 matrix_operate 函数 
并 将 其 长 度 缩 为 1 的 时 候 ， 得 到 的 向 量 与 其 自身 极为 接近 。 这 就 意味 着 它 是 一 个 特征 向 量 。 


请 广 意 ， 并 不 是 所 有 的 实数 矩阵 都 具有 特征 向 量 和 特征 值 。 例 如 ， 请 看 下 列 和 矩阵 ; 








rotate = [[ 0，1]， 
[-1, 0]] 


上 述 代码 的 作用 是 按照 顺 时 针 方向 将 向 量 旋转 90 度 ， 这 意味 着 ， 对 于 这 个 矩阵 来 说 ， 
只 有 一 个 向 量 能 够 映射 到 自身 的 数 乘 上 面 ， 这 个 向 量 就 是 零 向 量 。 如 果 你 执行 find_ 
eigenvector(rotate)， 它 会 永远 运行 下 去 。 即 使 是 具备 特征 向 量 的 矩阵 ， 有 了 时 候 也 会 陷入 
这 种 死 循 环 。 请 看 下 面 的 矩阵 : 








FU SLO ts 

[1, 0]] 
对 于 任意 向 量 [x，y]， 这 个 矩阵 都 会 将 其 映射 为 [y，x]。 这 就 意味 着 ，[1，1] 是 一 个 
特征 值 为 1 的 特征 向 量 。 但 是 ， 如 果 你 从 一 个 x 和 ? 并 不 相等 的 随机 向 量 着 手 的 话 ， 那 
么 ，find_eigenvector 将 会 来 回 交 换 这 两 个 坐标 值 ， 并 且 永 远 也 不 会 停 下 来 。(Not-from- 
scratch 是 一 个 类 似 于 NumPy 的 Python 库 ， 由 于 它 采 用 了 不 同 的 处 理 方法 ， 因 此 能 够 有 
效 处 理 这 种 情形 。) 尽管 如 此 ， 只 要 find_eigenvector 能 返回 一 个 结果 ， 那 么 这 个 结果 肯 

定 是 一 个 特征 向 量 。 


21.2.2 中心 度 
该 如 何 利用 特征 向 量 来 帮助 我 们 理解 DataSciencester 网 络 呢 ? 


首先 ， 我 们 需要 用 adjacency_matrix 来 表示 网 络 中 的 连接 ， 其 中 第 Gj) 个 元 素 的 值 要 么 为 
1 (如 果 用 户 i 和 用 户 j 是 朋友 的 话 )， 要 么 为 0 (如 果 他 们 不 是 朋友 的 话 ) : 

















def entry_fn(i, j): 
return 1 if (i, j) in friendships or (j, i) in friendships else 0 


n = len(users) 
adjacency_matrix = make_matrix(n, Nn, entry_fn) 


吨 


Nt 


对 于 每 个 用 户 来 说 ， 他 的 特征 向 量 中 心 度 就 是 在 find_eigenvector 返回 的 本 征 向 
用 户 对 应 的 那个 元 素 ( 见 图 21-4) : 


中 的 i 
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具体 技术 细节 这 里 就 不 多 说 了 ， 大 家 只 要 知道 任何 非 零 的 邻接 和 矩阵 必然 有 
一 个 所 有 的 值 皆 非 负 的 特征 向 量 就 行 了 。 幸 运 的 是 ， 我 们 只 要 借助 于 find_ 
eigenvector 国 数 就 能 够 找到 这 种 adjacency_matrix。 

















eigenvector_centralities, _ = find_eigenvector(adjacency_matrix) 














图 21-4: 根据 特征 向 量 中 心 度 绘制 的 DataSciencester 网 络 

特征 向 量 中 心 度 较 高 的 用 户 ， 不 仅 会 拥有 较 多 的 连接 ， 而 且 还 倾向 于 连接 到 具有 较 高 中 心 
度 的 那些 人 。 

就 上 图 而 言 ， 用 户 1 和 用 户 2 具有 最 高 的 中 心 度 ， 这 是 由 于 他 们 两 个 都 有 三 条 连接 是 通 向 
具有 高 中 心 度 的 对 方 的 。 如 果 我 们 将 其 移 除 ， 他 们 的 中 心 度 就 会 直线 下 降 。 

















在 这 种 小 型 的 网 络 上 中 ， 特 征 向 量 中 心 度 的 行为 会 有 些 怪 异 。 当 你 尝试 增 减 连 接 的 时 候 ， 
你 会 发 现 ， 只 要 对 网 络 进行 稍微 的 修改 ， 中 心 度 的 数值 就 会 发 生 戏 剧 性 的 变化 。 对 于 比较 
大 型 的 网 络 来 说 ， 这 种 情况 就 不 太 明显 。 


我 们 仍然 没有 介绍 为 什么 特征 向 量 能 够 较 好 地 度量 中 心 度 。 这 是 因为 特征 向 量 意 味 着 ， 如 
果 你 计算 : 

















matrix_operate(adjacency_matrix, eigenvector_centralities) 

















其 结果 就 等 于 用 一 个 标量 去 乘 以 eigenvector_centralities。 
如 果 你 了 解 矩 阵 乘 法 的 运算 机 制 ， 就 会 知道 matrix_operate 求 出 的 向 量 的 第 i 个 元 素 为 : 


dot(get_row(adjacency_matrix, i), eigenvector_centralities) 





这 实际 上 就 是 对 连接 到 用 户 i 的 各 个 用 户 的 特征 向 量 中 心 度 进行 求 和 。 


换 句 话 说， 特征 向 量 中 心 度 就 是 一 些 数值 ， 即 每 个 用 户 对 应 一 个 数值 ， 而 每 个 用 户 的 值 就 
是 他 的 相 邻 值 之 和 的 固定 倍数 。 在 这 种 情况 下 ， 中 心 度 就 意味 着 要 跟 处 于 中 心地 位 的 人 交 
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朋友 。 你 结交 的 人 的 中 心 度 越 高 ， 你 的 中 心 度 也 就 越 高 。 当 然 ， 这 明显 是 一 个 循环 定义 ， 
而 特征 向 量 就 是 打破 这 个 循环 的 突破 口 。 


对 此 还 有 男 外 一 种 理解 方法 ， 那 就 是 考察 find_eigenvector 函数 的 处 理 方式 。 它 首先 给 每 
个 市 点 随机 指定 一 个 中 心 度 ， 然 后 重复 以 下 两 个 步 又 ， 直 到 这 个 过 程 收 全 为 止 。 


1. 赋予 每 个 节点 一 个 新 的 中 心 度 分 数 ， 该 分 数 等 于 该 节点 相 邻 节点 的 ( 原 ) 中 心 度 分 数 
之 和 。 

2. 调整 中 心 度 向 量 ， 直 到 其 大 小 变 成 1 为止。 尽管 这 种 做 法 包含 的 数学 原理 有 点 让 人 摸 不 
着 头脑 ， 但 是 就 计算 本 身 而 言 ， 还 是 相当 简单 的 〈 这 一 点 与 中 介 中 心 度 不 同 )， 同 时 ， 
它 也 非常 适用 于 巨型 网 络 图 。 


21.3 有 回 图 与 PageRank 


由 于 DataSciencester 没有 获得 人 们 的 热烈 追捧 ， 因 此 ， 负 责 营 收 的 副 总 决定 将 网 站 从 交友 
模式 转换 为 赞助 模式 。 事 实证 明 ， 除 了 高 科技 业 的 猎头 非常 关心 哪些 数据 科学 家 备 受 其 他 
数据 科学 家 推崇 之 外 ， 没 人 对 科学 家 之 间 的 好 友 关 系 特别 在 意 。 

在 这 个 新 的 模型 中 ， 我 们 所 关注 的 赞助 (source，target) 并 不 表示 互 反 关系 ， 而 是 表示 用 
户 source 认为 用 户 target 是 一 位 令 人 惊 屋 的 数据 科学 家 ( 见 图 21-5) 。 因 此 ， 我 们 需要 考 
虑 这 种 不 对 称 性 : 






































endorsements = [(0, 1), (1, 0), (0, 2), (2, 0), (1, 2),， 
(25 1)s (15 3): (2， 3), (35 4)， (355 4)， 
(5; 6)， 《了 5 5); (6， 8)5 (8, 了 7 和 5 (8， 9)] 


for user in users: 
user["endorses"] = [] # 增加 一 个 列表 来 追踪 外 方 的 赞助 
user["endorsed_by"] = [] ” # 增加 另外 一 个 列表 来 追踪 赞助 
for source_id，target_id in endorsements : 


Users[source_id]["endorses"].append(users[target_id]) 
users[target_id]["endorsed_by"].append(users[source_id]) 


图 21-5: 基于 赞助 关系 的 DataSciencester 网 络 

















246 | 第 21 章 





这 样 的 话 ， 我 们 就 能 够 轻而易举 地 找 出 most_endorsed (最 受 推崇 的 ) 数据 科学 家 ， 从 而 
将 这 些 信息 出 售 给 猎头 们 : 


endorsements_by _ id = [(user["id"], len(user["endorsed_ by"])) 
for user in users] 


sorted(endorsements_by_id, 
key=Lambda (user_id, num_endorsements): num_endorsements, 
reverse=True) 





然而 ,“ 赞 同 票数 ”这 种 指标 是 很 容易 被 人 搞鬼 的 。 实 际 上 ， 你 只 要 创建 大 量 倪 偶 账户 ， 
然后 让 这 些 账户 给 你 投票 就 行 了 。 或 者 ， 你 还 可 以 跟 朋 友 们 商量 好 ， 都 彼此 捧场 也 行 。 
(例如 用 户 0、1 和 2 好 像 就 是 这 么 干 的 。) 


因此 ， 指 标 最 好 还 要 考虑 到 给 你 投 赞同 票 的 那些 人 。 也 就 是 说 ， 来 自得 票数 较 多 的 人 的 投 
票 的 分 量 应 该 重 于 得 票数 较 少 的 那些 人 的 投票 。 这 实际 上 就 是 PageRank 算法 的 思想 精华 ， 
Google 就 是 利用 它 来 给 网 站 排名 的 ， 主 要 考量 的 就 是 链接 到 该 网 站 的 其 他 站 点 、 到 达 该 网 
站 的 链接 等 。 





(这 是 否 让 你 想起 了 特征 向 量 中 心 度 背后 的 思想 依据 呢 ? ) 
下 面 是 这 种 思想 的 简化 版 本 。 

. 网络 中 PageRank 的 总 分 数 为 1 (或 100%)。 

. 最 初 ， 这 个 PageRank 被 均匀 分 布 到 网 络 的 各 个 节点 中 。 


. 在 每 一 步 中 ， 每 个 节点 的 PageRank 很 大 一 部 分 将 均匀 分 布 到 其 外 部 链接 中 。 
. 在 每 个 步骤 中 ， 每 个 节点 的 PageRank 的 其 余部 分 被 均匀 地 分 布 到 所 有 节点 上 。 





上 PP 王 





def page_rank(users，damping = 0.85, num_iters = 100): 


# 一 开始 均匀 分 布 PageRank 
num_uUsers = len(users) 
pr = { user["id"] : 1 / num users for user in Users } 





# 这 是 PageRank 的 一 小 部 分 
# 每 个 节点 进行 各 自 的 迭代 
base_ pr = (1 - damping) / num_users 


for __ in range(num iters): 

next_pr = { user["id"] : base_pr for user in users } 
for user in users: 

# 将 PageRank 分 布 到 外 部 链接 中 

Links_pr = pr[user["id"]] * damping 

for endorsee in user["endorses"]: 

next_pr[endorsee["id"]] += Links_pr / len(user["endorses"]) 

pr = next_pr 


return pr 
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PageRank ( 见 图 21-6) 表明 ， 用 户 4 (也 就 是 Thor) 是 排名 最 高 的 数据 科学 家 。 

















21-6: 利用 PageRank 绘制 的 DataSciencester 网 络 


与 用 户 0、1 和 2 相 比 ， 虽 然 给 他 投票 的 人 〈2 个 ) 并 不 多 ,但 是 他 的 得 票数 还 要 考虑 投票 
方 自身 的 排名 。 此 外 ， 两 个 投票 方 都 给 只 给 他 投了 票 ， 这 就 意味 着 他 不 必 与 别人 分 享 他 们 
的 排名 。 


21.4 延伸 学 习 


。 除了 本 文 介绍 的 这 些 中 心 度 指标 外 ， 还 有 许多 其 他 不 同 的 指标 (https://en.wikipedia.org/ 
wikiCentrality) ， 不 过 这 里 所 介绍 的 都 是 些 最 常见 的 指标 。 

。 NetworkX (http:Wnetworkx.github.io/) 是 一 个 用 于 网 络 分 析 的 Python 库 。 它 为 我 们 提供 
了 许多 函数 ， 来 帮助 计算 中 心 度 以 及 实现 图 的 可 视 化 。 

。 Gephi (http://gephi.github.io/) 是 一 个 让 人 爱 恨 交织 的 基于 图 形 用 户 界面 的 网 络 可 视 化 
工具 。 
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哦 ， 老 天 ， 老 天 ， 你 为 什么 如 此 随便 ， 老 是 把 提供 错误 建议 的 人 送 到 这 个 世间 ? | 


一 一 享 利 . 菲 尔 丁 


现实 中 ， 利 用 数据 提供 某 种 建议 也 是 很 常见 的 。 例 如 ，Netflix 能 够 向 用 户 推 荐 他 们 可 能 想 


看 的 


户 。 本 章 将 介绍 几 种 利用 数据 来 提供 建议 的 方法 。 
需要 指出 的 是 ， 这 里 要 考察 的 users_interests 是 之 前 就 曾 用 过 的 一 个 数据 集 : 


users_interests = [ 


] 


["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"], 
["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"], 

["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"], 
["R", "Python", "statistics", "regression", "probability"], 

["machine learning", "regression", "decision trees", "libsvm"], 
["Python", "R", "Java", "C++", "Haskell", "programming languages"], 
["statistics", "probability", "mathematics", "theory"], 

["machine learning", "scikit-learn", "Mahout", "neural networks"], 
["neural networks", "deep learning", "Big Data", "artificial intelligence"], 
["Hadoop", "Java", "MapReduce", "Big Data"], 

["statistics", "R", "statsmodels"], 

["C++", "deep learning", "artificial intelligence", "probability"], 
["pandas", "R", "Python"], 

["databases", "HBase", "Postgres", "MySQL", "MongoDB"], 

["libsvm", "regression", "support vector machines"] 





同时 ， 我 们 要 考虑 如 何 根 据 用 户 当前 特定 的 兴趣 来 向 其 推荐 新 的 感 兴趣 的 东西 。 


影 ， 亚 马 逊 会 向 你 推荐 你 可 能 会 严 的 商品 ，Twitter 会 为 你 推荐 你 可 能 想 关 注 的 用 
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22.1 手工 甄 筛 





在 互联 网 出 现 之 前 ， 如 果 你 需要 得 到 某 些 读书 建议 的 话 ， 您 怕 得 到 图 书馆 去 ， 那 里 的 





管理 员 通 常 能 够 根据 你 的 兴趣 或 者 你 喜欢 的 书籍 来 推荐 书籍 。 








鉴于 DataSciencester 的 用 户 及 其 兴趣 的 数量 有 限 ， 你 只 需 花 费 一 个 下 午 的 时 间 就 能 轻松 通 
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过 人 工 方式 向 每 个 用 户 推荐 他 们 感 兴趣 的 东西 。 但 这 种 方法 并 不 是 特别 好 ， 因 为 它 受制 于 
你 的 个 人 经 验 和 想象 力 。( 当 然 ， 这 并 不 意味 着 我 认为 你 的 个 人 经 验 和 想象 力 是 有 限 的 。) 





因此 ， 我 们 要 设法 让 数据 来 做 这 件 事 情 。 


总 pA md 
22.2 ”推荐 流行 事物 
一 个 比较 简单 的 方法 就 是 直接 推荐 比较 流行 的 东西 : 
popular_interests = Counter(interest 


for user_interests in users_interests 
for interest tn user_interests).most_common() 

















得 到 的 结果 可 能 像 下 面 这 样 : 


[('Python', 4), 
('R', 4), 

('Java' ,3), 
('regression' , 3), 
('statistics', 3), 
('probability' , 3), 
] 


完成 上 述 计算 后 ， 我 们 就 可 以 向 用 户 推荐 那些 当前 最 流行 的 、 他 尚未 感 兴趣 的 东西 : 


def most_popular_new_interests(user_interests, max_results=5): 
suggestions = [(interest, frequency) 
for interest, frequency in popular_interests 
if interest not in user_interests] 
return suggestions[:max_results] 

















因此 ， 如 果 你 是 用 户 1， 并 且 当 前 的 兴趣 为 : 





["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"] 
那么 ， 我 们 会 向 你 推荐 下 列 内 容 : 


most_popular_new_interests(users_interests[1], 5) 


# [('Python’', 4), ('R', 4), ('Java', 3), ('regression', 3), ('statistics', 3)] 

















如 果 你 是 用 户 3， 而 且 上 面 这 些 东 西 中 有 很 多 早 就 是 你 之 前 的 兴趣 所 在 了 ， 那 么 你 会 得 到 
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下 面 的 建议 : 





[('Java' , 3), 

('HBase' ,3), 

('Big Data' , 3), 

('neural networks', 2), 

('Hadoop', 2)] 
当然 ,“ 很 多 人 对 Python 感 兴趣 ， 所 以 你 也 可 能 感 兴趣 ”并 非 最 具有 说 服 力 的 推销 口号 。 
如 果 某 人 是 我 们 网 站 的 新 人 ， 我 们 对 他 一 无 所 知 ， 那 么 这 可 能 就 是 最 好 的 推荐 方法 了 。 下 
面 让 我 们 看 看 如 何 根据 用 户 的 兴趣 来 提供 更 好 的 建议 。 


= NR 3 ~ 

22.3 ”基于 用 户 的 协同 过 滤 方 法 

一 种 利用 用 户 兴 趣 的 方法 是 根据 这 些 兴趣 找到 有 类 似 有 要 好 的 人 ， 然 后 再 根据 这 些 人 的 爱好 
来 向 你 推荐 你 可 能 感 兴趣 的 东西 。 

为 此 ， 我 们 需要 找到 一 种 指标 来 衡量 两 个 用 户 之 间 的 相似 程度 。 就 这 里 来 说 ， 我 们 所 使 用 
的 指标 叫 作 余弦 相似 度 (cosine similarity)。 给 定 两 个 向 量 v 和 w， 余 弦 相 似 度 的 定义 如 下 
所 示 : 








def cosine_ similarity(v, w): 
return dot(v, w) / math.sqrt(dot(v, v) * dot(w, w)) 

















它 用 来 测量 v 和 w 之 间 的 “角度 ”"。 如 果 v 和 w 指 癌 同 一 个 方向 ， 那 么 分 子 和 分 母 都 相等 ， 
所 以 其 余弦 相似 度 等 于 1。 如 果 v 和 w 指 向 相反 的 方向 ， 那 么 其 余弦 相似 度 就 等 于 -1。 如 
果 v 等 于 0， 那 么 无 论 w 是 否 为 0 (反之 亦 然 )，dot(v, 由 总 是 等 于 0， 所 以 余弦 相似 度 总 
为 0。 


我 们 会 把 这 个 计算 方法 应 用 到 由 0 和 1 构成 的 向 量 上 面 ， 甚 中 每 个 向 量 都 表示 一 个 用 户 的 
某 种 爱好 。 如 果 用 户 对 第 z 项 事物 感 兴趣 的 话 ， 则 v[i] 取 1， 否 则 为 0。 因此 ,“ 爱 好 相似 
的 用 户 ” 就 意味 着 “兴趣 向 量 的 方向 儿 乎 相同 的 用 户 "。 兴 趣 完全 相同 的 用 户 ， 其 相似 度 
为 1。 而 没有 共同 兴趣 的 用 户 ， 其 相似 度 为 0。 否则 的 话 ， 其 相似 度 会 介 于 两 者 之 间 : 该 
数值 越 接近 1， 表 示 “ 越 相似 ”， 该 数值 越 接近 0， 表 示 “ 越 不 相似 ”。 

通常 来 说 ， 从 收集 已 知 的 兴趣 并 为 其 〈 隐 式 ) 指定 索引 着 手 是 一 个 不 错 的 主意 。 为 此 ， 我 


们 可 以 用 集合 的 观点 将 那些 不 重复 的 兴趣 收集 到 一 起 ， 然 后 把 它们 放 到 一 个 列表 中 ， 并 对 
其 进行 排序 。 这 样 的 话 ， 在 这 个 列表 中 的 第 一 个 兴趣 就 是 兴趣 0， 其 他 以 此 类 推 : 


















































unique_interests = sorted(list({ interest 
for User_interests in users_interests 
for interest in user_interests })) 





我 们 将 得 到 一 个 列表 ， 开 头 部 分 如 下 所 示 : 





['Big Data ' ， 
"C++ ， 
"Cassandra ' ， 
"HBase ' ， 
"Hadoop ' ， 
"HaskelLtL  ， 


] 





接 下 来 ， 我 们 要 给 每 个 用 户 生成 一 个 由 0 和 1 组 成 的 “兴趣 ”向 量 。 为 此 ， 我 们 只 需 遍 历 
unique_interests 列表 ， 如 果 用 户 有 某 种 兴趣 ， 则 相应 元 素 置 1， 否 则 置 0: 





def make_user_interest_vector(user_interests ) : 
"""given a list of interests，produce a vector whose ith element is 1 

if unique_interests[i] is in the list, 0 otherwise"””"”" 

return [1 if interest in user_interests else 0 


for interest in unique_interests] 


之 后 ， 我 们 还 可 以 创建 用 户 兴 趣 和 矩阵 ， 为 此 ， 我 们 只 需 将 这 个 函数 映射 到 由 用 户 的 兴趣 构 
成 的 列表 的 列表 上 面 即 可 : 














User_interest_matrix = map(make_user_interest_ vector, users_interests) 




















现在 ， 如 果 用 户 宇 对 兴趣 j 感 兴趣 ， 则 user_interest_matrix[i][j] 等 于 1， 否 则 为 0。 
由 于 我 们 的 数据 集 非 常 小 ， 因 此 所 有 用 户 两 两 之 间 的 相似 性 的 计算 量 不 是 很 大 : 
user_similarities = [[cosine similarity(interest vector i, interest vector_j) 
for interest vector_j in user_interest_matrix] 


for interest vector_i in user_interest_matrix] 


在 这 之 后 ，user_similarities[i][j] 的 数值 就 能 够 告诉 我 们 用 户 i 和 用 户 j 之 间 的 相似 度 。 





举例 来 说 ，user_similarities[0][9] 等 于 0.57， 因 为 这 两 个 用 户 都 对 Hadoop、Java 和 Big 
Data 感 兴趣 。 同 时 ，user_similarities[0][8] 的 值 只 有 0.19， 因 为 用 户 0 和 用 户 8 只 
个 共同 的 兴趣 ， 即 Big Data。 








就 user_similarities[i] 而 言 ， 它 存放 的 是 用 户 放 相对 于 所 有 用 户 的 相似 度 。 我 们 可 以 用 
它 来 写 一 个 函数 ， 来 找 出 与 给 定 用 户 最 相似 的 用 户 。 同 时 ， 我 们 还 需要 确保 这 里 不 包括 用 
户 自身 以 及 相似 度 为 0 的 那些 用 户 。 下 面 我 们 按照 相似 度 从 大 到 小 的 顺序 对 结果 进行 排序 : 

















def most_similar_users_to(user_id): 




















pairs = [(other_user_id, similarity) # 查找 
for other_user_id, similarity in # 其 他 用 户 
enumerate(user_similarities[user_id]) # 非 零 
if user_id != other_user_id and similarity > 0] # 相似 度 
return sorted(pairs, # 将 其 排序 
key=Lambda (_, similarity): similarity, # 相似 度 
reverse=True) # 由 大 到 小 





252 | 第 22 章 


举例 来 说 ， 如 果 我 们 调用 函数 most_similar_users_to(0)， 将 得 到 下 列 输出 : 


[(9, 0.5669467095138409)， 
(1, 0.3380617018914066)， 
(8, 0.1889822365046136)， 
(13, 0.1690308509457033)， 
(5, 0.1543033499620919)] 


那么 ， 我 们 该 如 何 利用 这 个 结果 向 用 户 推荐 新 的 兴趣 呢 ? 对 于 每 种 兴趣 ， 我 们 可 以 将 其 他 














对 其 感 兴趣 的 用 户 的 用 户 相似 度 加 起 来 : 





def user_based_suggestions(user_id, include_current_interests=False): 


# 将 相似 度 加 起 来 
suggestions = defaultdict(float) 
for other_user_id, similarity in most_similar_users_to(user_id): 
for interest in users_interests[other_user_id]: 
suggestions[interest] += similarity 


# 将 它们 转化 成 已 排序 的 列表 

suggestions = sorted(suggestions.items(), 
key=Lambda (_, weight): weight, 
reverse=True) 





# 并 且 ( 有 可 能 ) 排 除 已 存在 的 兴 
if include_current_interests: 
return suggestions 
else: 
return [(suggestion, weight) 
for suggestion, weight in suggestions 
if suggestion not in users_interests[user_id]] 














如 果 我 们 调用 user_based_suggestions(9)， 那 么 在 推荐 的 兴趣 中 比较 靠 前 的 儿 个 为 : 





[('MapReduce', 0.5669467095138409), 

('MongoDB', 0.50709255283711)， 

('Postgres', 0.50709255283711)，, 

('NoSQL', 0.3380617018914066)， 

('neural networks', 0.1889822365046136)， 

('deep learning', 0.1889822365046136)， 
('artificial intelligence', 0.1889822365046136)， 
#... 

] 


这 些 东 西 对 于 自称 对 “Big Data” 和 数据 库 相 关 的 主题 感 兴趣 的 人 来 说 ， 看 起 来 的 确 是 相 


| 





不 错 的 建议 。( 这 些 权 重 自身 并 无 意义 ， 它 们 只 是 用 于 进行 排序 。) 





但 是 ， 当 兴趣 的 数量 很 大 的 时 候 ， 这 种 方法 就 玩 不 转 了 。 还 记得 第 12 章 中 介 





绍 的 维度 灾 


难 吗 ? 在 高 维 向量 空 间 中 ， 绝 大 多 数 向 量 之 间 都 是 离 得 非常 远 的 〈 因 此 它们 之 间 的 方向 也 
悬殊 很 大 ) 。 也 就 是 说 ， 当 兴趣 的 数量 变 大 时 ， 即 使 是 与 给 定 用 户 “ 最 相似 的 用 户 ”， 实 际 








上 也 很 可 能 根本 没有 相似 之 处 。 





想象 一 个 类 似 亚马逊 这 样 的 网 站 ， 在 过 去 几 十 年 中 ， 我 已 经 从 它 那 里 购买 了 数 以 千 计 的 商 








品 。 你 可 能 试图 通过 购买 模式 来 找 


tH 跟 我 类 似 的 用 户 ， 但 在 这 个 世界 上 ， 除 了 我 自己 之 


外 ， 苞 怕 没有 谁 的 购买 历史 看 起 来 更 像 我 了 。 无 论 与 我 “最 相似 的 ”顾客 是 谁 ， 他 很 可 能 
根本 就 不 像 我 ， 因 此 ， 如 果 将 他 购买 的 物品 推荐 给 我 的 话 ， 基 本 上 就 注定 了 这 是 一 个 糟糕 























的 建议 。 


22.4 ”基于 物品 的 协同 过 滤 算 法 


还 有 一 种 方法 ， 即 直接 计算 两 种 兴趣 之 间 的 相似 度 ， 然 后 将 与 用 户 当前 兴趣 相似 的 兴趣 放 
到 一 起 ， 并 从 中 为 用 户 推荐 感 兴趣 的 东西 。 


首先 ， 我 们 要 对 用 户 兴趣 矩阵 进行 转 


interest user_matrix = [[user_i 

for us 
for j, 

这 么 做 之 后 ， 结 果 如 何 呢 ? 这 时 ， 
interest_matrix 的 列 j。 也 就 是 说 ， 


置 (transpose) ， 以 使 行 对 应 于 兴趣 ， 列 对 应 于 用 户 ， 


nterest_vector[j] 
er_interest_vector in User_interest_matrix] 
in enumerate(unique_interests)] 


和 矩阵 interest_user_matrix 的 行 了 3 就 是 矩阵 user_ 
1 表示 用 户 有 某 种 兴趣 ，0 表示 用 户 没 有 某 种 兴趣 。 


举例 来 说 ， 假 设 unique_interests[0] 为 Big Data， 那 么 interest_user_matrix[0] 则 为 ; 


[1，0，0，0，0，0，0，0，1，1， 


0, 0, 0, 0, 0] 


这 是 因为 用 户 0、8 和 9 都 对 Big Data 感 兴趣 。 





现在 ， 我 们 可 以 再 次 利用 余弦 相似 度 。 如 果 喜 欢 两 个 主题 的 用 户 完 全 重合 ， 那 么 它们 的 相 
似 度 为 1。 如 果 喜 欢 两 个 主题 的 用 户 没 有 一 个 是 重合 的 ， 那 么 它们 的 相似 度 将 是 0 


interest_ similarities = [[cosin 
for u 
for us 


例如 ， 我 们 可 以 通过 下 列 代码 找 出 与 


def most_similar_interests_ to(i 
similarities = interest_ sim 
pairs = [(unique_interests[ 

for other_interest 

if interest_ id != 

return sorted(pairs, 

key=Lambda (_ 

reverse=True) 








村 


下 是 推荐 的 相似 兴 








e_similarity(user_vector_ i, user_vector_j) 
ser_vector_j in interest_user_matrix] 
er_vector_i in interest_user_matrix] 


Big Data (兴趣 0) 最 相似 的 项 : 


nterest_id): 

ilarities[interest_id] 

other_interest id], similarity) 

_id, similarity in enumerate(similarities) 
other_interest_id and similarity > 0] 


,， Similarity): similarity, 
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[('Hadoop' ，0.8164965809277261) ， 

('Java', 0.6666666666666666), 

('MapReduce' ，0.5773502691896258 ) ， 

('Spark', 0.5773502691896258)， 

('Storm', 0.5773502691896258)， 

('Cassandra', 0.4082482904638631)， 

('artificial intelligence', 0.4082482904638631)， 
('deep Learning' ，0.40824829046386311) ， 

('neural networks', 0.4082482904638631)， 
('HBase', 0.3333333333333333)] 


现在 ， 我 们 可 以 通过 总 结 与 其 兴趣 相似 的 东西 来 为 其 提供 建议 : 

















def item based_suggestions(user_id, include_current_interests=False): 

# 将 相似 的 兴趣 相 加 

suggestions = defaultdict(float) 

user_interest_ vector = User_interest matrix[user_id] 

for interest id, is_ interested in enumerate(User_interest_vector ) : 

if is_ interested == 1: 
similar_interests = most_similar_interests to(interest_id) 
for interest, similarity in similar_interests: 
suggestions[interest] += similarity 





# 根据 权重 将 其 排序 

suggestions = sorted(suggestions.items(), 
key=Lambda (_, similarity): similarity, 
reverse=True) 


if include_current_interests: 
return suggestions 
else: 
return [(suggestion, weight) 
for suggestion, weight tn suggestions 
if suggestion not in users_interests[user_id]] 


而 是 为 用 户 0 提供 的 (看 上 去 比较 恰当 的 ) 建议 : 








[('MapReduce', 1.861807319565799), 

('Postgres', 1.3164965809277263)， 

('MongoDB', 1.3164965809277263)， 

('NoSQL', 1.2844570503761732)， 

('programming languages', 0.5773502691896258)， 
('MySQL' ，0.5773502691896258 ) ， 

('HaskeLL' ，0.5773502691896258 ) ， 

('databases', 0.5773502691896258)， 

('neural networks', 0.4082482904638631)， 
('deep learning', 0.4082482904638631)， 

('C++', 0.4082482904638631)， 

('artificial intelligence', 0.4082482904638631)， 
('Python', 0.2886751345948129)， 

('R', 0.2886751345948129)] 
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22.5 延伸 学 习 


。 Crab (http://muricoca.github.io/crab/) 是 一 个 打造 推荐 系统 的 Python 框架 。 

。 Graphlab 也 提供 了 一 个 推荐 工具 包 (https://dato.com/products/create/docs/graphlab. 
toolkits.recommender.html ) 。 

。 Netflix Prize (http://www.netflixprize.com/) 是 一 项 比较 著名 的 竞赛 活动 ， 旨 在 为 Netflix 

用 户 打造 更 好 的 电影 推荐 系统 。 
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第 23 章 


数据 库 与 QL 





回忆 ， 是 最 贴心 的 朋友 ， 也 是 最 可 怕 的 敌人 。 
一 一 吉尔 伯 特 .帕克 


我 们 使 用 的 数据 通常 存储 于 数据 库 中 。 数 据 库 是 用 来 有 效 存储 与 查询 数据 的 系统 。 绝 大 部 
分 数据 库 属于 关系 型 (relational) 数据 库 ， 例 如 Oracle、MySQL 与 SQL Server， 它 们 把 数 
据 存储 在 表 中 ， 并 专门 通过 结构 化 查询 语言 (SQL) 来 查询 。SQL 是 一 种 用 来 处 理 数 据 的 
声明 性 语言 。 


SQL 是 数据 科学 家 工具 箱 中 相当 重要 的 一 部 分 。 本 章 中 我 们 来 创建 NotQuiteABase 
个 类 似 于 数据 库 的 Python 实现 。 我 们 会 学 习 SQL 的 基础 知识 ， 并 且 在 我 们 的 类 数据 库 中 
展示 它 是 如 何 工 作 的 ， 这 是 让 你 从 零 基 础 开始 理解 它们 工作 原理 的 最 佳 方式 。 和 希望 你 通过 
解决 NotQuiteABase 中 的 问题 ， 可 以 很 好 地 理解 在 SQL 中 如 何 解 决 相同 的 问题 。 






































23.1 CREATE TABLE 与 INSERT 


关系 型 数据 库 是 表 (以 及 表 之 间 的 关系 ) 的 集合 。 表 是 行 的 简单 集合 ， 这 与 我 们 前 面 讨论 
过 的 矩阵 不 同 。 但 是 表 有 一 个 固定 的 结构 ， 包 含 列 名 与 列 的 类 型 。 























例如 ， 假 设 有 一 个 数据 集 users， 对 于 每 个 用 户 它 都 包含 三 个 属性 user\_id、name 和 num\_ 


friends: 


users = [[0, "Hero", 0], 
[1 Dunn"™y, 2]; 
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[2，"Sue"，3]， 
[3, "Chi"; 3]] 


在 SQL 中 ， 我 们 可 以 这 样 创建 表 : 


CREATE TABLE users ( 
user_id INT NOT NULL, 
name VARCHAR(200), 
num_friends INT); 


注意 ， 我 们 设 定 user\_id 和 num\_friends 都 必须 是 整数 (日 user_id 不 可 以 为 NULL， 








大 








为 NULL 表示 缺失 值 ， 类 似 于 我 们 的 None)， 并 且 名 字 必 须 是 长 度 不 大 于 200 的 字符 串 。 


NotQuiteABase 不 考虑 类 型 ， 但 这 里 我 们 当 作 它 会 考虑 。 





SQL 几乎 不 区 分 大 小 写 和 缩 进 形式 。 本 书 中 的 大 小 写 与 缩 进 风格 是 我 的 个 人 





习惯 。 如 果 你 开始 学 习 SQL， 很 可 能 会 遇 上 不 同 风格 的 例子 。 





你 可 以 使 用 INSERT 语句 来 插入 行 : 





INSERT INTO users (user_id, name, num_friends) VALUES (0, 'Hero', 0); 


注意 ，SQL 语句 需要 用 分 号 结尾 ， 并 且 字 符 串 需要 用 单 引 号 括 住 。 


在 NotQuiteABase 中 ， 只 要 简单 地 设 定 列 名 就 能 创建 一 个 表 。 要 想 插 入 一 个 行 ， 你 可 以 
使 用 表 的 insert() 方法 ， 这 个 方法 使 用 一 个 包含 行 值 的 列表 ， 行 值 需 按 照 表 的 列 名 顺序 














排列 。 


从 本 质 上 说 ， 我 们 存储 的 每 行 都 类 似 于 一 个 从 列 名 到 值 映 射 的 字典 。 一 个 真正 的 数据 库 不 


会 使 用 这 么 浪费 空间 的 方式 ， 但 这 样 做 可 以 使 NotQuiteABase 更 易于 处 理 : 








class Table: 
def _ init_ (self, columns): 
self.columns = columns 
self.rows = [] 


def _repr__(self): 


pretty representation of the table: columns then rows 
return str(self.columns) + "\n" + "\n".join(map(str, self.rows)) 


Mmm 


def insert(self, row_values): 
if len(row_values) != len(self.columns): 
raise TypeError("wrong number of elements") 
row_dict = dict(zip(self.columns, row_values)) 
self.rows.append(row_dict) 
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例如 ， 我 们 可 以 创 到 


users = Table(["user_id", "name", "num_friends"]) 
users.insert([0, "Hero", 0]) 
users.insert([1, "Dunn", 2]) 
users.insert([2, "Sue", 3]) 
users.insert([3, "Chi", 3]) 
users.insert([4, "Thor", 3]) 
users.insert([5, "Clive", 2]) 
users.insert([6, "Hicks", 3]) 
users.insert([7, "Devin", 2]) 
users.insert([8, "Kate", 2]) 
users.insert([9, "Klein", 3]) 
users.insert([10, "Jen", 1]) 
如 果 你 打印 users， 可 以 看 到 : 
['user_id', 'name', 'num friends'] 


{'user_id': 0, 'name': 'Hero', 'num_friends': 0} 
{'user_id': 1, 'name': 'Dunn', 'num friends': 2} 
{'user_id': 2, 'name': 'Sue', 'num friends': 3} 


23.2 UPDATE 


有 时 候 你 需要 更 新 已 经 存在 于 数据 库 中 的 数据 。 例 如 ， 如 果 Dunn 台 
就 得 这 样 做 : 
UPDATE users 


SET num_friends = 
WHERE User_id = 1 





其 核心 特征 是 : 


。 哪 张 表 需要 更 新 
哪些 行 需要 更 新 
哪些 字段 需要 更 新 
。 新 值 应 该 是 什么 


我 们 将 为 we 增加 类 似 的 update 方法 。 
列 ， 其 值 是 这 些 字段 的 新 值 。 
则 返回 False: 


第 二 个 语句 是 predicate， 


def update(self, updates, predicate): 
for row in self.rows: 
if predicate(row): 
for column, new_valuye in updates.iteritems(): 
row[column] = new_value 


结识 了 一 位 新 朋友 ， 你 





第 一 个 语句 是 dtct， 其 键 是 需要 更 新 的 
它 对 需要 更 新 的 行 返 回 True， 否 
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然后 我 们 只 需 这 样 做 : 


users.update({'num friends' : 3}, # 设 定 num_friends = 3 
Lambda row: row['user_id'] == 1) # 在 user_id == 1 的 行 中 








23.3 DELETE 
SQL 有 两 种 方法 可 以 在 表 中 删除 行 。 一 个 比较 有 风险 的 方法 是 直接 删 掉 表 的 每 行 : 
DELETE FROM Users; 


稍微 安全 一 点 的 方法 是 增加 WHERE 子 句 ， 再 删 掉 匹 配 某 种 条 件 的 行 : 

















DELETE FROM Users WHERE User_id = 1; 
在 表 中 增加 这 个 功能 很 容易 : 


def delete(self, predicate=lambda row: True) : 
"""delete all rows matching predicate 
or all rows if no predicate supplied""”" 
self.rows = [row for row in seLf.rows if not(predicate(row)) 


如 果 你 提供 了 一 个 predicate 函数 〈 即 WHERE 子 句 )， 它 会 仅 删 掉 那 些 满足 条 件 的 行 。 如 果 
你 不 提供 任何 predicate 函数 ， 默 认 的 判定 就 返回 真 值 True， 然 后 删 掉 每 一 行 。 








例如 : 


users.delete(lambda row: row["user_id"] == 1) # 删 掉 user_id == 1 的 行 
users.delete() # 删 掉 每 一 行 


23.4 SELECT 
通常 ， 我 们 不 会 直接 查看 SQL 表 ， 而 是 通过 一 个 SELECT 语句 查询 


SELECT * FROM users; -- 得 到 所 有 内 容 
SELECT * FROM users LIMIT 2; -- 得 到 前 两 行 
SELECT user_id FROM users; -- 只 得 到 特定 列 








SELECT user_id FROM users WHERE name = 'Dunn'; -- 只 得 到 特定 行 
你 也 可 以 使 用 SELECT 语句 计算 字段: 
SELECT LENGTH(Cname) AS name_Length FROM users; 


我 们 会 给 Table 类 一 个 select() 方法 来 返回 一 个 新 Table。 这 个 方法 采用 两 种 可 选 语句 。 




















。 keep_columns 声明 了 你 希望 在 结果 中 保留 的 列 名 。 如 果 没 提供 这 一 项 ， 结 果 会 包含 所 有 
的 列 。 
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。 additional_columns 是 一 个 字典 ， 它 的 键 是 新 列 名 ， 值 是 指定 如 何 计算 新 列 值 的 函数 。 


如 果 两 种 都 不 用 ， 你 只 会 得 到 一 个 表 的 机 械 复制 的 版 本 : 








def select(self, keep_columns=None, additional_columns=None): 


if keep_columns is None: # 如 果 没 有 指定 列 
keep_columns = self.columns # 则 返回 所 有 列 





if additional_columns is None: 
additional_columns = {} 


# 结果 的 新 表 


result_table = Table(keep_columns + additionaL_coLumns .keys()) 


for row in self.rows: 
new_row = [row[coLumn] for column in keep_columns] 
for column_name, calculation in additional_columns.iteritems(): 
new_row.append(calculation(row)) 
result_table.insert(new_row) 


return result_table 


setect() 会 返回 新 的 表 ， 而 一 般 的 SQL SELECT 仅 会 生成 某 种 临时 结果 集 (除非 你 显 式 地 
将 结果 导入 一 个 表 )。 




















我 们 也 需要 where() 和 timit() 方法 。 两 种 方法 都 很 简单 : 


def where(self, predicate=lambda row: True): 
"""return only the rows that satisfy the supplied predicate" 
where_table = Table(self.columns) 
where_table.rows = filter(predicate, self.rows) 
return where_table 


def limit(self, num_rows): 
"""return only the first num_rows rows 
limit table = Table(self.columns) 
limit table.rows = self.rows[:num_rows] 
return limit_ table 


mm 


然后 我 们 可 以 轻松 创建 与 先前 的 SQL 语句 等 价 的 NotQuiteABase 语句 : 


# SELECT * FROM users; 
users.select() 


# SELECT * FROM Users LIMIT 2; 
Users.limit(2) 


# SELECT user_id FROM Users; 
users.select(keep_columns=["user_id"]) 


# SELECT user_id FROM users WHERE name = "Dunn'; 
Users.where(Lambda row: row["name"] == "Dunn") \ 
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.Select(keep_columns=["user_id"]) 


# SELECT LENGTH(name) AS name_Length FROM users; 
def name_length(row): return len(row["name"]) 


Users.seLect(keep_coLumns=[]， 








additionaL_coLumns = { "name_length" : name_Length }) 
注意 一 一 不 同 于 本 书 其 他 部 分 一 一 我 在 这 里 用 反 斜 线 \ 来 表示 程序 语句 的 跨行 延续 。 与 其 


他 方法 相 比 ， 我 认为 这 种 方法 可 以 让 串 连 在 一 起 的 NotQuiteABase 查询 语句 更 易 读 。 


23.5 GROUP BY 


另 一 种 常见 的 SQL 操作 是 GROUP BY， 它 可 以 将 在 特定 列 有 相同 值 的 行进 行 分 组 ， 并 求 出 
特定 的 汇总 值 ， 如 MIN、MAX、COUNT 或 SUM。( 回 想 10.3 节 “ 处 理 数 据 ” 中 提 到 的 group_by 
国 数 。) 


例如 ， 你 需要 对 每 个 可 能 的 名 字 长 度 找 出 相应 的 用 户 数目 和 最 小 user_id: 








SELECT LENGTH(Name) as name_Length ， 
MIN(user_id) AS min_user_id， 
COUNT(*) AS num_users 

FROM users 

GROUP BY LENGTH(Cname ) ; 


我 们 通过 SELECT 生成 的 每 个 字段 ， 要 么 需要 在 GROUP BY 语句 中 完成 (name_Length 就 是 这 
样 ) ， 要 么 需要 汇总 计算 (min_user_id 和 num_users 就 是 这 样 ) 。 


SQL 同样 支持 HAVING 子 句 ， 它 和 WHERE 子 名 类似， 只 是 前 者 只 对 汇总 结果 过 滤 (而 后 者 在 
汇总 计算 之 前 就 过 滤 )。 

也 许 你 想 知 道 名 字 以 某 些 特定 字母 开头 的 用 户 的 平均 朋友 数 ， 结 果 却 只 看 到 了 平均 个 数 大 
于 1 的 结果 。( 是 的 ， 其 中 某 些 例子 是 人 为 的 。) 
































SELECT SUBSTR(name, 1, 1) AS first letter, 
AVG(num_friends) AS avg_num friends 

FROM Users 

GROUP BY SUBSTR(name, 1, 1) 

HAVING AVG(num_friends) > 1; 


(处 理 字符 串 的 函数 会 基于 不 同 的 SQL 实现 而 有 所 不 同 ， 一些 数据 库 会 用 SUBSTRING 或 者 
别 的 方式 。) 


你 也 可 以 计算 总 体 的 汇总 值 ， 这 时 我 们 不 用 GROUP BY: 


SELECT SUM(user_id) as user_id_sum 
FROM Users 
WHERE user_id > 1; 
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为 了 对 NotQuiteABase 表 增 加 这 项 国 数 功能 ， 我 们 增加 一 个 group_by() 方法 。 它 首先 取 
你 希望 分 组 的 列 名 、 你 希望 对 每 组 运行 的 汇总 函数 的 字典 和 作用 于 多 行 的 可 选 判定 函数 


having, 








然后 完成 以 下 步骤 。 





1. 生成 默认 字典 ， 将 ( 按 值 分 组 的 ) 元 组 映射 到 行 (包含 按 值 分 的 组 )。 前 面 提 过 ， 列 表 
不 可 以 用 作 字 典 的 键 ， 你 得 使 用 元 组 。 

2. 遍历 表 的 每 一 行 ， 填 充 defaultdict。 

3. 用 正确 的 输出 列 生成 新 表 。 

4. 遍历 defaultdict， 并 填充 输出 表 。 使 用 having 过 滤 (如 果 有 的 话 )。 




















实际 的 3 会 效 的 方式 完成 这 些 步 又 。 
(实际 的 数据 库 会 用 更 有 效 的 方式 完成 这 些 步骤 。) 
def group_by(self, group_by_columns, aggregates, having=None): 
grouped_rows = defaultdict(list) 


# 填充 组 

for row in self.rows: 
key = tuple(row[column] for column in group_by_columns) 
grouped_rows[key].append(row) 








# 结果 表 中 包含 组 列 与 汇总 
result_table = Table(group_by_columns + aggregates.keys()) 


for key, rows in grouped_rows.iteritems(): 
if having is None or having(rows): 
new_row = list(key) 
for aggregate_name，aggregate_fn in aggregates.iteritems(): 
new_row.append(aggregate_fn(rows)) 
result_table.insert(new_row) 


return result_table 


我 们 再 来 看 看 为 了 完成 先前 SQL 语句 的 功能 还 能 用 什么 别 的 方法 。name_length 标准 表示 
如 下 所 示 : 


def min_user_id(rows): return min(row["user_id"] for row in rows) 
stats_by_length = users \ 
.Select(additional_columns={"name_length" : name_length}) \ 
.group_by(group_by_columns=["name_length"], 
aggregates={ "min user_id" : min user_id, 
"Nnum_users" : len }) 


first_letter 的 标准 表示 是 : 


def first_letter_of_name(row): 
return row["name"][0] if row["name"] else 
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def average_num friends(rows): 
return sum(row["num friends"] for row in rows) / len(rows) 


def enough_friends(rows): 
return average _ num friends(rows) > 1 


avg_friends_by_letter = users \ 
.select(additional_ columns={'first letter' : first letter of _name}) \ 
.group_by(group_by_columns=[ 'first_ letter'], 
aggregates={ "avg_num friends" : average_ num friends }, 
having=enough_friends) 


user_id_sun 的 标准 表示 是 : 
def sum_user_ids(rows): return sum(row["user_id"] for row in rows) 
User_id_sum = Users \ 
.Where(Lambda row: row["user_id"] > 1) \ 


.group_by(group_by_columns=[]， 
aggregates={ "user_id_ sum" : sum user_ids }) 


23.6 ORDER BY 
你 会 经 常 需要 对 结果 排序 。 比 如 ， 你 也 许 想 知道 你 前 两 个 用 户 的 名 字 ( 按 字母 顺序 排 





SELECT * FROM Users 
ORDER BY name 
LIMIT 2; 


可 以 通过 给 表 提 供 一 个 具有 排序 (order) 功能 的 order_by() 方法 来 轻易 实现 : 


def order_by(self, order): 
new_table = self.select() # 进行 一 次 复制 
new_table.rows.sort(key=order) 
return new_table 


然后 我 们 可 以 这 样 做 : 


friendliest letters = avg_friends_by_letter \ 
.order_by(Lambda row: -row["avg_num friends"]) \ 
.limit(4) 


SQL 中 的 ORDER BY 可 以 让 你 为 每 个 字段 设 定 ASC (升序 排列 ) 或 DESC (降序 排列 ) ， 这 里 
我 们 不 得 不 把 它 并 入 到 order 函数 中 。 





23.7 JOIN 
关系 型 数据 库 的 表 通 常 是 正则 化 的 ， 意 味 着 依照 宛 余 最 小 化 的 原则 进行 组 织 。 例 如 ， 当 我 











A 
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们 处 理 用 户 对 Python 的 兴趣 时 ， 我 们 只 能 为 每 个 用 户 提供 一 个 包含 他 的 兴趣 的 列表 。 





SQL 表 并 不 会 包含 真正 的 列表 ， 它 的 实现 机 制 是 生成 第 二 个 表 user_interests， 这 个 表 包 
含 了 从 user_id 到 兴趣 的 一 对 多 的 关系 。 在 SQL 中 ， 你 可 以 这 样 做 : 


CREATE TABLE user_interests ( 
user_id INT NOT NULL, 
interest VARCHAR(100) NOT NULL 
); 





而 在 NotQuiteABase 中 ， 你 需要 建立 表 : 


user_interests = Table(["user_id", "interest"]) 
user_interests.insert([0, "SQL"]) 
user_interests.insert([0, "NoSQL"]) 
user_interests.insert([2, "SQL"]) 
user_interests.insert([2, "MySQL"]) 


这 样 仍 然 有 很 多 的 元 余 性 一 一 兴趣 “SQL” 存 储 在 两 个 不 同 的 地 方 。 在 实 
际 数据 库 中 ， 你 需要 将 user\_id 和 interest\_id 存在 表 user\_interests 
中 ， 并 建立 将 interest\_id 映射 到 interest 的 第 3 个 表 interests， 这 样 
你 就 可 以 将 每 个 兴趣 名 字 仅 仅 存储 一 次 。 这 里 ， 我 们 会 举 比 实际 需要 更 复 
杂 的 例子 。 



































当 我 们 的 数据 跨 表 存 储 时 ， 该 如 果 分 析 ? 当然 是 把 表 JOIN 在 一 起 。JOIN 可 以 将 左 表 的 行 
和 右 表 对 应 的 行 结合 在 一 起 ， 其 中 ， 如 何 “对 应 ”取决 于 我 们 对 join 的 具体 设 定 。 


例如 ， 为 了 找 出 对 SQL 感 兴趣 的 用 户 ， 你 需要 : 























SELECT Users.name 

FROM Users 

JOIN user_interests 

ON users.user_id = user_interests.user_id 
WHERE user_interests.interest = "SQL 





JOIN 意味 着 对 users 中 的 每 行 都 要 找到 user_id， 并 找 出 user_interests 中 包含 相同 
user_id 的 每 一 行 ， 把 它们 联系 起 来 。 


注意 ， 我 们 得 指定 哪个 表 需 要 参与 JOIN， 哪 些 列 需要 被 join ON。 这 是 一 种 INNER JOIN， 返 
回 的 是 条 件 匹 配 行 (仅仅 是 行 的 组 合 ) 的 组 合 。 





LEFT JOIN 不 仅 返 回 匹 配 行 的 组 合 ， 也 返回 左 表 中 无 匹配 行 的 行 (这 种 情形 下 ， 来 自 右 表 
的 字段 值 全 部 为 NULL)。 





通过 LEFT JOIN 可 以 很 容易 计算 出 每 个 用 户 的 兴趣 数目 : 
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SELECT users.id, COUNT(user_interests.interest) AS Num interests 
FROM USsers 

LEFT JOIN user_interests 

ON users.user_id = user_interests.user_id 








LEFT JOIN 保证 没 任何 兴趣 的 用 户 在 并 集结 果 数 据 集中 仍 有 一 席 之 地 (来 自 表 user_ 
interest 的 字段 值 为 NULL)， 并 且 COUNT 只 对 非 NULL 值 进行 计数 。 


NotQuiteABase 的 join() 实现 更 为 严格 一 些 一 一 它 只 对 两 表 有 共同 列 的 部 分 做 合并 。 虽 然 
如 此 ， 也 不 妨 把 它 写 出 来 : 
def join(self, other_table, left_ join=False): 


join_on_columns = [c for c in self.columns # 两 个 表 的 列 
if c in other_table.columns] 





additional_columns = [c for c in other_table.columns # 右 表 中 的 列 
if c not in join_on_coLumns] 





# 左 表 中 所 有 列 + 右 表 增加 的 列 


join_tabtLe = Table(self.columns + additional_columns) 





for row in self.rows: 
def is_join(other_row): 
return all(other_row[c] == row[c] for c in join_on_columns) 


other_rows = other_table.where(is_join).rows 


# 每 对 匹配 的 行 生成 一 个 新 行 
for other_row in other_rows : 
join_table.insert([row[c] for c in seLf.coLumns] + 
[other_row[c] for c in additional_columns]) 


# 如 果 没 有 行 匹 配 ,在 左 并 集 的 操作 下 生成 空 值 
if left_join and not other_rows: 
join_table.insert([row[c] for c in self.columns] + 
[None for c in additional_columns]) 


return join_table 


羊 我 们 就 找到 了 对 SQL 感 兴趣 的 用 户 : 


度 





sql_users = users \ 
.join(user_interests) \ 
.Where(Lambda row: row["interest"] == "SQL") \ 
.Select(keep_columns=["name"]) 


并 且 可 以 获得 兴趣 的 数目 : 
def count_interests(rows): 


"""counts how many rows have non-None interests 
return len([row for row in rows if row["interest"] is not None]) 


Mmmm 
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user_interest_counts = Users \ 
.join(user_interests, left_ join=True) \ 
.group_by(group_by_columns=["user_id"], 
aggregates={"num_interests" : count interests }) 


在 SQL 中 ， 还 有 一 个 RIGHT JOIN， 它 查询 的 是 右 表 中 没有 匹配 的 行 。 还 有 FULL OUTER 
JOIN， 它 查询 的 是 两 表 中 无 匹配 的 所 有 行 。 我 们 不 再 一 一 展示 。 


23.8 ” 子 查 询 


在 SQL 中 ， 你 可 以 把 查询 结果 当成 表 ， 执 行 SELECT (或 JOIN) 操作 。 因 此 ， 如 果 你 希望 
找到 对 SQL 感 兴趣 的 用 户 中 的 最 小 user_id， 可 以 考虑 使 用 子 查询 。( 当 然 ， 你 也 可 以 通 
过 JOIN 来 做 相同 的 运算 ， 只 是 这 样 就 无 法 展示 子 查询 了 。) 


























SELECT MIN(user_id) AS min_user_id FROM 
(SELECT user_id FROM User_interests WHERE interest = 'SQL') sql_interests; 
































如 果 设 计 好 了 NotQuiteABase， 我 们 就 可 以 方便 地 得 到 如 下 结果 。( 我 们 的 查询 结果 是 实际 
的 表 。) 


likes_sql_user_ids = User_interests \ 
.Where(Lambda row: row["interest"] == "SQL") \ 
.Select(keep_columns=['user_id']) 


likes_sql_user_ids.group_by(group_by_columns=[]， 
aggregates={ "min user_id" : min user_id }) 


23.9 索引 


为 了 找 出 包含 特定 值 ( 比 如 名 字 是 “Hero”) 的 行 ，NotQuiteABase 需要 检查 表 的 每 一 行 。 
如 果 表 有 很 多 行 ， 得 花费 很 长 时 间 。 


同样 ， 我 们 的 join 算法 也 极端 低 效 。 为 了 确认 一 个 匹配 ， 对 左 表 的 每 一 行 ， 都 需要 检查 右 
表 的 每 一 行 。 如 果 对 象 是 两 个 大 规模 的 表 ， 这 样 的 计算 几乎 没有 结束 的 时 候 。 


并 且 ， 你 有 时 会 需要 对 某 些 列 加 以 约束 。 比 如 ， 在 表 user 中 ， 你 很 可 能 不 希望 两 个 不 同 的 
用 户 共 用 一 个 user_id。 























索引 可 以 解决 以 上 问题 。 如 果 表 user_interests 有 一 个 基于 user_id 的 索引 ， 那 么 使 用 一 
个 智能 的 join 算法 就 可 以 不 用 遍历 全 表 而 直接 完成 匹配 。 如 果 表 users 已 有 基于 user_id 
的 “唯一 ”索引 ， 你 再 插入 重复 记录 时 会 报错 。 


数据 库 中 的 每 个 表 都 有 一 个 或 多 个 索引 ， 这 让 你 可 以 通过 关键 词 列 快速 查找 行 ， 可 以 有 效 
并 表 ， 以 及 可 以 对 行 或 者 行 集合 施加 唯一 约束 。 
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设计 好 、 用 好 索引 从 某 种 程度 上 来 讲 更 像 魔术 〈 还 会 因 具 体 数据 库 的 不 同 而 情况 各 异 )， 
但 如 果 你 需要 处 理 大 量 数据 库 工 作 ， 学 习 一 下 索引 还 是 值得 的 。 


23.10 查询 优化 


回想 一 下 找 出 所 有 对 SQL 感 兴趣 的 用 户 的 查询 方法 : 





SELECT Users .name 

FROM Users 

JOIN user_interests 

ON users.user_id = user_interests.user_id 
WHERE user_interests.interest = 'SQL' 





在 NotQuiteABase 中 ， 有 (至少 ) 两 种 不 同 的 方法 可 以 写 这 个 查询 。 你 可 以 在 并 表 之 前 过 
滤 表 user_interests: 
user_interests \ 
.where(lambda row: row["interest"] == "SQL") \ 


.join(users) \ 
.select(["name"]) 


或 者 你 可 以 对 并 表 的 结 采 过 闭 : 





user_interests \ 
.join(users) \ 
.Where(Lambda row: row["interest"] == "SQL") \ 
.select(["name"]) 


两 种 方法 都 可 以 获得 相同 的 结果 ， 但 先 过 着 再 并 表 的 方式 效率 更 高 ， 因 为 这 样 可 以 在 并 表 
时 操作 更 少 的 行 。 


在 SQL 中， 你 基本 不 用 担心 这 个 。 你 只 需 “ 声 明 ” 自 己 需 要 的 结果 ， 再 把 任务 丢 给 查询 引 
获 (和 有 效 使 用 索引 ) 来 实现 即 可 。 











23.11 NoSQL 


数据 库 的 一 个 近期 发 展 趋势 是 非 关 系 型 的 “NoSQL” 数 据 库 ， 这 种 数据 库 不 将 数据 存放 在 
表 中 。 例 如 MongoDB 这 种 流行 的 无 结构 数据 库 ， 它 的 元 素 直 接 是 一 些 复杂 JSON 文档 ， 
而 不 是 行 。 


此 外 ， 还 有 以 列 而 非 行 的 形式 存储 数据 的 列 型 数据 库 (适用 于 数据 本 身 有 很 多 列 但 查询 却 
很 少 用 到 的 情形 )， 优 化 的 通过 键 来 检索 单独 (复杂 ) 的 值 的 键 值 存储 对 数据 库 ， 用 来 存 
储 和 遍历 图 像 的 数据 库 ， 跨 多 个 数据 中 心 运行 的 优化 数据 库 ， 在 内 存 中 运行 的 数据 库 ， 以 
及 存储 时 间 序 列 数据 的 数据 库 等 上 百 个 数据 库 。 
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未 来 瞬息 万 变 ， 谁 也 无 法 预知 明天 会 流行 什么 ， 所 以 我 仅仅 告诉 你 有 NoSQL 这 么 一 回 事 。 
因此 你 现在 知道 有 NoSQL 这 个 东西 就 行 了 。 


23.12 ”延伸 学 习 


。 如 果 你 想 下 载 关系 型 数据 库 的 相关 练习 ,SQLite (http:Wwww.sqlite.org/) 是 个 很 好 的 选择 ， 
它 快 捷 而 精致 。MySQL (http:/www.mysql.com/) 和 PostgreSQL (http://www.postgresq]l. 
org/) 则 规模 更 大 ， 功 能 更 多 。 这 些 软件 都 是 免费 的 ， 而 且 有 大 量 文 档 可 供 参 考 。 

。 如 果 你 想 深 入 学 习 NoSQL， 我 推荐 MongoDB (https:Wwww.mongodb.org/) ， 它 上 手 特 
别 容易 ， 不 过 这 个 特点 既 受 赞扬 又 被 诉 病 。 这 个 软件 也 拥有 非常 友好 的 文档 。 

。 维基 百科 上 关于 NoSQL 的 文章 (https://en.wikipedia.org/wiki/NoSQL) 非常 全 面 ， 现 在 
其 所 提供 的 链接 涉及 的 有 些 数据 库 在 撰写 本 书 时 甚至 还 没 诞 生 。 
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第 24 章 


MapReduce 





明天 已 经 上 照 焰 现 在 ， 只 是 尚未 酒 满 每 个 角落 。 





MapReduce 是 一 个 用 来 在 在 大 型 数据 集 上 执行 并 行 处 理 的 算法 模型 。 尽 管 这 是 一 个 非常 强 
大 的 技术 ,但 它 的 基本 原理 却 很 简单 。 











假设 我 们 有 一 组 待 处 理 的 项 目 ， 这 些 项 目 可 能 是 网 页 日 志 、 许 多 本 书 的 文本 、 图 像 文件 或 

者 是 其 他 东西 。 一 个 基本 的 MapReduce 算法 包括 下 面 几 个 步骤 。 

1. 使 用 mapper 函数 把 每 个 项 目 转化 成 零 个 或 多 个 键 值 对 。( 通 常 这 被 称 为 map 函数 ， 但 是 
已 经 有 了 一 个 叫 map 的 Python 函数 ， 所 以 我 们 不 能 把 它们 混淆 。) 

2. 用 相同 的 键 把 所 有 的 键 值 对 收集 起 来 。 

3. 在 每 一 个 分 好 组 的 值 集合 上 使 用 reducer 函数 ， 对 每 个 对 应 的 键 生 成 输出 值 。 


这 样 讲 是 很 抽象 的 ， 所 以 让 我 们 看 一 个 具体 的 例子 。 数 据 科 学 里 很 少 有 绝对 的 规则 ， 但 有 
一 个 不 成 文 的 规则 是 ， 你 面 对 的 第 一 个 MapReduce 的 例子 中 必须 要 涉及 单词 计数 。 


24.1 案例 : 单词 计数 


DataSciencester 网 站 的 用 户 数量 已 增长 到 了 数 百 万 ! 这 对 你 的 工作 是 极 大 的 保障 ， 但 也 使 
日 常 分 析 变 得 有 点 困难 了 。 


比如 ， 内 容 部 门 的 副 总 想 知 道 用 户 的 状态 更 新 都 涉及 什么 内 容 。 作 为 初步 的 尝试 ， 你 决定 
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统计 一 下 出 现 的 单词 的 数量 ， 这 样 你 就 可 以 准备 一 个 关于 出 现 频 度 最 高 的 单词 的 报告 。 
当 有 几 百 个 用 户 的 时 候 这 做 起 来 很 简单 : 








def word_count_oLd(documents ) : 
"""word count not using MapReduce 
return Counter(word 
for document in documents 
for word in tokenize(document)) 


Mmm 





而 数 百 万 个 用 户 的 documents 集合 就 变 得 很 大 ， 你 的 电脑 都 装 不 下 。 如 果 你 能 把 它们 纳入 
MapReduce 模型 处 理 ， 就 可 以 使 用 你 的 引擎 上 已 经 部 署 的 一 些 “ 大 数据 ”架构 。 


首先 ， 我 们 需要 一 个 国 数 来 把 文档 转化 成 一 系列 的 键 值 对 。 我 们 希望 输出 的 结果 能 按 单词 
分 组 ， 这 意味 着 键 应 该 是 单词 。 对 每 一 个 单词 ， 我 们 只 发 送 值 1 来 表示 这 个 键 值 对 对 应 于 
单词 出 现 一 次 : 











def wc_mapper(document ) : 
"""for each word in the document, emit (word,1) 
for word in tokenize(document ) : 
yield (word, 1) 


先 暂时 跳 过 第 二 步 ， 假 设 对 某 些 词 我 们 已 经 收集 了 所 发 送 过 的 对 应 计数 的 列表 。 接 下 来 生 
成 我 们 所 需要 的 这 个 词 的 全 部 计数 : 


Mmm 


def wc_reducer(word, counts): 
"""sum up the counts for a word""" 
yield (word, sum(counts)) 

















再 返回 步骤 2， 现 在 我 们 需要 收集 来 自 wc_mapper 的 结果 ， 再 把 它们 传递 给 wc_reducer。 
让 我 们 思考 一 下 怎么 在 一 台 计 算 机 上 完成 这 件 事 : 


def word_count(documents): 
"""count the words in the input documents Using MapReduce 


# 存放 分 好 组 的 值 
collector = defaultdict(list) 


Mmm 


for document in documents: 
for word, count in wc_mapper(document): 
collector [word] .append(count) 


return [output 
for word, counts in collector.iteritems() 
for output in wc_reducer(word, counts)] 


假设 我 们 有 三 个 文档 ["data science", "big data", "science fiction"]。 


然后 把 wc_mapper 应 用 到 第 一 个 文档 ， 产 生 两 个 键 值 对 ("data",1) 和 ("science", 1)。 在 
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处 理 完 所 有 三 个 文档 之 后 ， 列 表 cotlector 会 包含 : 





{ "data” s [1 11s 
"science" : [1, 1], 
"big" : [1], 
"fiction’ < [1] 3} 


然后 wc_reducer 函数 生成 了 每 个 单词 的 计数 : 


[("data", 2), ("science", 2), ("big", 1), ("fiction", 1)] 


24.2 为 什么 是 MapReduce 


如 











同 早先 所 提 到 的 ，MapReduce 的 主要 优点 就 是 通过 将 处 理 过 程 移动 到 数据 来 进行 分 布 式 








的 计算 。 假 设 我 们 想 对 数 以 十 亿 计 的 文档 进行 单词 计数 。 


我 们 最 初 的 〈 非 MapReduce 的 ) 方法 要 求 机 器 在 每 一 个 文档 上 进行 处 理 。 这 意味 着 所 有 的 
文档 要 么 存在 机 器 上 要 么 在 处 理 期 间 转 移 到 机 器 上 。 更 重要 的 是 ， 这 意味 着 机 器 一 次 只 能 
处 理 一 个 文档 。 


假 让 


它 




















如 果 机 器 是 多 核 的 ， 且 如 果 代码 是 为 了 利用 多 核 的 优势 而 重 写 过 的 ， 那 它 
是 有 可 能 一 次 处 理 几 个 文档 的 。 但 即使 这 样 ， 所 有 的 文档 也 都 要 放 到 机 器 
中 来 。 








受 现在 我 们 将 数 十 亿 个 文档 分 散 到 100 台 机 器 上 。 利 用 正确 的 架构 (并且 掩 盖 掉 一 些 细 
节 )， 我 们 可 以 做 下 面 的 事 。 


让 每 一 台 机 器 在 它 的 文档 上 运行 mapper 函数 ， 产 生 大 量 的 键 值 对 。 

把 那些 键 值 对 分 配 到 一 些 “reducing” 的 机 器 上 ， 确 保 对 应 任何 一 个 给 定 键 的 对 在 同一 
台 机 器 上 完成 计算 。 

每 一 台 reducing 机 器 通过 键 分 组 这 些 对 ， 然 后 对 每 个 值 的 集合 运行 reducer 函数 。 
返回 每 个 键 值 对 。 























可 以 处 理 的 横向 规模 水 平 令 人 惊叹 。 如 果 我 们 把 机 器 的 数量 加 倍 ， 那 么 (忽略 运行 
只 





MapReduce 系统 的 某 些 固定 成 本 ) 计算 的 运行 速度 大 约会 快 两 倍 。 每 一 个 mapper 机 器 只 需 
要 做 一 半 的 工作 ，( 假 设 有 足够 多 不 同 的 键 来 进一步 分 配 reducer 工作 ) reducer 机 器 也 是 


24.3 更 加 一 般 化 的 MapReduce 


思考 一 前 面 例子 中 所 有 的 单词 计数 代码 是 包括 在 wc_mapper 和 wc_reducer 这 两 个 国 


数 





中 的 。 这 意味 着 通过 几 个 改变 我 们 会 得 到 一 个 更 通用 的 框架 (仍然 是 运行 在 单个 机 器 
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上 的 ) : 


def map_reduce(inputs, mapper, reducer): 


"""runs MapReduce on the inputs using mapper and reducer 
collector = defaultdict(list) 


UA 


for input in inputs: 
for key, value in mapper(input): 
collector[key].append(value) 


return [output 


for key, values in collector.iteritems() 
for output in reducer(key,values)] 


然后 我 们 可 以 通过 下 面 的 方法 简单 地 完成 单词 计数 : 





word_counts = map_reduce(documents, wc_mapper, wc_reducer) 








这 为 我 们 解决 各 种 类 型 的 问题 提供 了 灵活 性 。 








在 继续 讲解 下 面 的 内 容 之 前 ， 我 们 先 观察 一 下 wc_reducer 函数 ， 它 仅仅 是 把 对 应 于 每 一 个 
键 的 值 加 起 来 。 这 种 聚合 是 非常 普遍 的 ， 值 得 把 它 抽 象 出 来 : 





def reduce_values_using(aggregation_fn, key, values): 
"""reduces a key-values pair by applying aggregation fn to the values""”" 
yield (key, aggregation_fn(values)) 


def values_reducer(aggregation_fn): 
"""turns a function (values -> output) into a reducer 


that maps (key, values) -> (key, output) 
return partial(reduce_values_using, aggregation_fn) 


在 这 之 后 我 们 就 可 以 轻松 创建 以 下 内 容 : 





sum_reducer = values_reducer(sum) 
max_reducer = values_reducer (max) 
min_reducer = valuyes_reducer(min) 
count_distinct_reducer = vaLues_reducer(Lambda values: len(set(values))) 


24.4 案例: 分析 状态 更 新 


内 容 部 门 的 副 总 对 单词 计数 印象 深刻 ， 并 询问 你 还 能 从 用 户 的 状态 更 新 中 学 到 什么 。 你 设 
法 提取 了 一 个 类 似 下 面 这 样 的 状态 更 新 的 数据 集 : 








fd" 1， 
"Username" : "joelgrus", 
"text" : "Is anyone interested in a data science book?", 


"created at" : datetime.datetime(2013, 12, 21, 11, 47, 0), 
"liked by" : ["data_ guy", "data gal", "mike"] } 
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假设 我 们 想 找 出 每 周 内 的 哪 一 天 人 们 讨论 数据 科学 最 多 。 为 了 找到 这 个 结果 ， 只 需 计 算 一 
下 一 周 内 每 一 天 有 多 少 个 数据 科学 更 新 。 这 意味 着 我 们 需要 按 每 周 内 的 每 天 进行 分 组 ， 这 
就 是 我 们 的 键 。 而 且 如 果 对 每 一 个 包含 “数据 科学 ”的 更 新 发 送 一 个 值 1， 就 可 以 使 用 sum 
国 数 得 到 总 数 : 





def data_science day_mapper(status_update): 
"""yields (day_ of- week, 1) if status_update contains "data science 
if "data science" in status_update["text"].lower(): 
day_of_ week = status_update[ "created at"].weekday() 
yield (day_of_week, 1) 


UA 


data_science days = map_reduce(status_updates, 
data_science_day_mapper, 
sum_reducer) 








再 举 一 个 稍微 复杂 一 点 的 例子 ， 假 设 我 们 需要 找 出 每 个 用 户 在 其 状态 更 新 中 最 常用 的 单词 
是 什么 。 为 了 建立 napper， 我 们 的 脑海 中 会 浮现 以 下 三 种 方法 。 


。 把 用 户 名 放 到 键 当中 ， 把 单词 和 计数 放 到 值 当 中 。 
。 把 单词 放 到 键 当 中 ， 把 用 户 名 和 计数 放 到 值 当中 。 
。 把 用 户 名 和 单词 放 到 键 当 中 ， 把 计数 放 到 值 当中 。 


稍 作 考 虑 ， 我 们 很 容易 就 能 判断 出 应 该 按 username 分 组 ， 因 为 我 们 想 分 别 芳 虑 每 个 人 的 单 
词 。 WO on ds i edueer Ti el A 
找到 哪 一 个 是 最 流行 的 。 这 意味 着 第 一 种 选择 是 最 优选 择 : 








TI 








| IE | 








TI 























def words_per_user_mapper(status_update): 
User = status_update[ "username"] 
for word in tokenize(status_update["text"]): 
yield (user, (word, 1)) 


def most_popular_word_reducer(uyser, words_and_counts): 
"""given a sequence of (word, count) pairs, 
return the word with the highest total count 


mm 


word_counts = Counter() 
for word, count ;in words_and_counts: 
word_counts[word] += count 
word, count = word_counts.most_ common(1)[0] 
yield (user, (word, count)) 
User_words = map_reduce(status_updates, 


words_per_user_mapper， 
most_popular_word_reducer) 


或 者 我 们 能 为 每 个 用 户 找 到 各 自 的 状态 点 赞 者 的 个 数 : 
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def Liker_mapper(status_Update) : 
User = status_update["username"] 
for liker in status_update["liked_by"]: 
yield (user, liker) 


distinct_likers_per_user = map_reduce(status_Updates， 
liker_mapper, 
count_distinct_reducer) 


24.5 ”案例 : 矩阵 计算 


回想 22.2.1 节 “ 算 阵 乘法 ”， 给 定 一 个 m x n 的 矩阵 4 和 一 个 n xx 大 的 矩阵 有 8， 可 以 把 它 
们 乘 起 来 得 到 m x 大 的 矩阵 C， 其 中 C 的 第 i 行 第 j 列 的 元 素 由 下 式 给 
C=AnBitAnByt +A;B, 

如 同 我 们 之 前 所 见 的 ， 表 示 一 个 m x n 秆 阵 的 “自然 的 ” 方法 是 列表 的 列表 ， 其 中 元 素 4， 
是 第 i 个 列表 的 第 j 个 元 素 。 

但 大 型 矩阵 有 时 候 是 稀 级 的 ， 即 大 部 分 的 元 素 等 于 0。 对 于 大 型 稀 玻 矩阵 而 言 ， 列 表 的 
列表 是 一 种 非常 浪费 的 表达 方式 。 一 种 更 简洁 的 表达 方式 是 元 组 的 列表 (name，i，j， 
value)， 其 中 name 代表 矩阵， 而 i、j、value 表示 一 个 非 零 元 素 的 位 置 。 








比如 ， 一 个 十 亿 x 十 亿 的 矩阵 会 有 亿 亿 级 别 (quintilion，1 x 10™) 的 元 素 ， 这 是 难以 存 
储 在 一 个 计算 机 中 的 。 但 是 如 果 每 行当 中 只 有 不 多 的 一 些 非 零 元 素 ， 上 面 那 种 替代 的 表示 
法 就 会 小 很 多 个 数量 级 。 








基于 这 种 表示 法 ， 我 们 可 以 使 用 MapReduce 以 分 布 式 的 方式 执行 矩阵 乘法 。 


为 使 用 这 种 算法 ， 请 注意 ，4, 只 用 于 计算 C 的 第 1 行 的 元 素 ，B, 只 用 于 计算 C 的 第 7 列 的 
元 素 。 我 们 的 目标 是 使 reducer 的 每 一 个 输出 构成 矩阵 C 的 一 个 元 素 。 这 意味 着 我 们 需要 
用 mapper 发 送 键 值 ， 以 确定 C 中 的 每 个 元 素 。 建 议 像 下 面 这 样 处 理 ， 











def matrix_multiply_mapper(m, element): 
"""m is the common dimension (columns of A, rows of B) 
element is a tuple (matrix_name, i, j, value)"”"”" 
name, i, j, value = element 


if name == "A": 
# A_ij 是 每 个 C_ik 之 和 的 第 j 个 元 素 ,其 中 k=1..m 
for k in range(m) : 
# 与 C_ik 的 其 他 元 素 分 组 
yield((i, k), (j, value)) 





else: 
# B_ij 是 每 个 Ckj 之 和 的 第 i 个 元 素 
for k in range(m): 
# 与 C_kj 的 其 他 元 素 分 组 
yield((k, j), (i, value)) 
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def matrix_multiply_reducer(m, key, indexed_values): 
results_by_index = defaultdict(list) 
for index, value in indexed_values: 
results_by_index[index].append(value) 


# 对 有 两 个 结果 的 位 置 把 所 有 的 乘积 加 起 来 

sum_product = sum(results[0] * results[1] 
for results in results_by_index.values() 
if len(results) == 2) 


if sum product != 0.0: 
yield (key, sum_product) 

















比如 ， 如 果 你 有 如 下 的 两 个 矩阵 : 


A = [LL3:; 2 0] ， 
[9，0，0]] 


B = [[4， sd 0] ， 
[10 ， 0， 0]， 
[9，0，0]] 


你 可 以 把 它们 重 写 为 元 组 : 


entries = [("A", 0, 0, 3), ("A", 0, 1, 2)， 

("B", 0, 0, 4), ("B", 0, 1, -1), ("B", 1, 0, 10)] 
mapper = partial(matrix_multiply_mapper, 3) 
reducer = partial(matrix_multiply_reducer, 3) 


map_reduce(entries, mapper, reducer) # [((0, 1), -3), ((0, 0), 32)] 


在 这 样 一 个 小 矩阵 上 操作 并 不 太 有 趣 ， 但 是 如 果 你 有 百 万 行 百 万 列 的 矩阵 ，MapReduce 就 
会 起 很 大 作用 。 


24.6 题 外 话 : 组 合 器 
你 很 可 能 已 经 注意 到 ， 许 多 mapper 可 能 包括 一 些 额外 的 信息 。 比 如 ， 在 计数 单词 的 时 候 ， 
与 其 发 送 1) 并 累加 求 和 ， 不 如 发 送 (word，None) 再 取 其 长 度 。 


我 们 没有 这 么 做 的 一 个 原因 是 ， 在 分 布 式 情景 下 ， 我 们 有 时 会 想 用 组 合 器 (combiner) 来 
缩减 在 计算 机 之 间 转 移 的 数据 数量 。 如 果 一 个 mapper 机 器 发 现 单词 “data”500 次 ， 可 以 
让 它 在 移交 数据 给 缩减 机 器 之 前 把 500 个 ("data"，1) 组 合成 一 个 单独 的 ("data"， 500) 。 
这 使 得 转移 的 数据 少 了 很 多 ， 算 法 会 大 大 加 快 。 


基于 我 们 编写 reducer 的 方法 ， 它 能 正确 地 处 理 这 些 组 合 的 数据 。( 如 果 我 们 已 经 用 Len 函 
数 写 了 reducer， 它 就 不 能 处 理 组 合 了 。) 
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24.7 ”延伸 学 习 


使 用 最 为 广泛 的 MapReduce 系统 是 Hadoop (http://hadoop.apache.org/)， 它 值得 用 很 多 
本 书 来 曾 述 。 它 有 许多 商业 或 非 商 业 的 发 行 版 ， 以 及 一 个 由 Hadoop 相关 工具 组 成 的 巨 
大 的 生态 系统 。 

为 了 使 用 Hadoop， 你 需要 建立 自己 的 聚 类 (或 者 可 以 在 允许 的 情况 下 使 用 别人 建 好 
的 聚 类 )， 当 然 ， 对 于 承 压 能 力 较 差 的 人 来 说 ， 可 以 不 把 这 当成 必然 的 任务 。Hadoop 
mapper 和 reducer 通常 是 用 Java 写成 的 ， 尽 管 有 一 种 被 称 为 “Hadoop streaming” 的 功 
能 允许 你 用 其 他 的 语言 (包括 Python) 来 写 。 

Amazon.com 提供 Elastic MapReduce (http://aws.amazon.com/cn/elasticmapreduce/) 服务 ， 
它 可 以 用 编程 的 方式 来 创建 或 销毁 聚 类 ， 并 只 根据 你 使 用 该 服务 的 时 长 来 收费 。 
mrjob (https://github.com/Yelp/mrjob) 是 Python 的 一 个 Hadoop (或 Elastic MapReduce) 
的 接口 包 。 

Hadoop 任务 是 典型 的 高 延迟 的 ， 这 对 于 “实时 分 析 ” 来 说 不 是 个 好 选择 。 有 多 种 建立 
在 Hadoop 之 上 的 “实时 分 析 ” 工 具 ， 同 时 还 有 一 些 替 代 性 的 框架 也 日 益 流 行 。 最 流行 
的 两 种 是 Spark (http://spark.apache.org/) 和 Storm (http://storm.incubator.apache.org/)。 
总 之 , 很 有 可 能 目前 流行 的 某 种 新 的 分 布 式 框架 在 本 书写 作 时 还 未 问世 ， 那 就 需要 你 自 
己 把 它 找 出 来 了 。 
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此 刻 ， 我 再 次 祈求 我 丑陋 的 后 代 生 生 世 记 繁 荣昌 感 。 


一 玛丽. 雪 莱 

















从 这 里 出 发 ， 要 去 哪里 呢 ? 如 果 至 此 讲 的 有 关 数 据 科学 的 东西 还 没有 把 你 吓 跑 的 话 ， 接 下 
来 你 可 以 学 习 以 下 内 容 。 


25.1 |Python 


在 本 书 前 面 的 章节 我 们 提 到 过 IPython (http://ipython.org/)。 它 提供 了 一 个 远 比 标准 Python 
shell 功能 强大 的 shell， 而 且 加 入 了 一 些 “魔法 国 数 "， 可 以 让 你 〈 比 如 ) 轻松 地 复制 粘贴 
代码 〈 以 空 行 和 空白 的 组 合 形式 实现 代码 通常 是 比较 复杂 的 ) ， 而 且 可 以 在 shell 内 部 运行 
代码 。 




















掌握 了 IPython 会 让 你 的 工作 变 得 非常 轻松 。( 甚 至 仅仅 学 一 点 点 了 Python 就 可 以 了 。) 


此 外 ， 它 还 允许 你 创建 将 文本 、Python 动态 代码 和 可 视 化 相 结合 的 “日 记 本 ” (notebook)， 
你 可 以 将 它们 与 别人 共享 ， 或 仅仅 保存 为 自己 的 日 志 (图 25-1)。 
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Ev: 


[4]: 


I P [yj: No te b OO K Stock Prices Last Checkpoint: Jan 25 15:40 (unsaved change 


File 


Edit View Insert Cell Kemel Help 
© 由 个 YP 加 CC code v | Cell Toolbar | None M 
import csv 


Here's where we read from the file: 


: with open(r"c:\src\data-science-from-scratch\code\stocks.txt", "rb") as f: 


reader = csv.DictReader(f, delimiter="\t") 
data = [row for row in reader] 


What does this data look like? 


: print data[9] 


{'date': '2815-81-23', "Symbol" : "AAPL', "closing_price'`: '112.98'} 
Now we can find the maximum price for AAPL stock using a list comprehension:- 


print max(row["closing price"] for row in data if row["symbol"] == "AAPL") 


99.68 





25-1: 一 个 IPython 日 记 本 


25.2 ”数学 





本 


涵盖 了 线性 代数 (第 4 章 )、 统 计 (第 5 章 )、 概 率 (第 6 章 ) 和 机 器 学 习 的 一 些 内 容 。 


要 想 成 为 一 名 优秀 的 科学 家 ， 你 需要 知道 更 多 关于 这 些 领 域 的 知识 ， 而 且 我 鼓励 你 对 每 一 
个 领域 开展 深入 的 学 习 。 你 可 以 参考 我 在 每 一 章 末 尾 推荐 的 教科 书 ， 也 可 以 使 用 自己 选择 
的 教科 书 ， 或 通过 在 线 课程 甚至 线 下 课程 来 进行 学 习 。 


25.3 不 从 零 开 始 

“从 零 开始 ”做 一 件 事情 对 于 理解 这 件 事情 的 工作 原理 是 很 有 好 处 的 。 但 这 种 方法 对 于 性 
能 表现 〈 除 非 你 仅仅 是 出 于 性 能 方面 的 考虑 而 实现 它们 )、 易 用 性 、 快 速成 型 或 误差 处 理 
来 说 并 不 是 很 理想 。 

















TT 














在 实践 中 ， 你 可 能 需要 用 到 精心 设计 的 能 稳定 地 实施 基础 原则 的 库 。( 我 本 来 是 想 在 本 书 





中 加 一 个 “让 我 们 来 学 一 些 库 ” 的 板块 ， 幸 好 ， 被 OReilly 否决 了 。) 


25.3.1 





NumPy 








NumPy ( 即 “Numeric Python”，http://www.numpy.org/) 提供 了 处 理 “真实 ” 科 学 计算 的 
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工具 。 它 提供 了 比 我 们 的 tist 向 量 性 能 更 好 的 数组 ， 提 供 了 比 我 们 的 List-of-list 矩阵 
性 能 更 好 的 矩阵 ， 以 及 大 量 利用 它们 来 工作 的 数值 函数 。 


对 很 多 其 他 的 库 来 说 ，NumPy 是 个 基础 构件 ， 这 是 它 特别 值得 学 习 的 原因 。 

















25.3.2 pandas 


pandas (http://pandas.pydata.org/) 提供 了 处 理 Python 数据 集 的 更 多 的 数据 结构 。 它 主要 的 
抽象 概念 是 DataFrame， 在 内 容 上 与 我 们 在 第 23 章 中 构建 的 NotQuiteABase table 类 很 相 
似 ， 但 是 有 更 多 的 功能 和 更 好 的 性 能 。 如 果 你 打算 用 Python 修改 、 分 划 、 分 组 或 操作 数据 
人 pandas 是 一 个 非常 有 用 的 工具 。 





25.3.3 scikit-learn 


scikit-learn (http://scikit-learn.org/) 可 能 是 Python 中 处 理 机 器 学 习 问 题 最 常用 的 库 。 它 包 
括 我 们 用 过 的 所 有 模型 以 及 很 多 我 们 没 用 过 的 模型 。 在 真实 的 问题 上 ， 你 无 需 从 零 开 始 建 
立 决 策 树 ， 而 是 可 以 使 用 scikit-learn 来 做 繁重 的 工作 。 在 真实 的 问题 上 ， 你 也 无 需 手 动 写 
出 优化 算法 ， 而 是 可 以 依靠 scikit-learn 使 用 已 有 的 优秀 算法 。 























scikit-learn 的 文档 包括 了 许 许多 多 案例 (http://scikit-learn.org/stable/auto_examples/) 来 说 明 
它 可 以 做 什么 (或 者 ， 更 一 般 地 ， 说 明 机 器 学 习 可 以 做 什么 )。 





25.3.4 可 视 化 
我 们 创建 过 的 matplottib 图 形 很 清晰 而 且 功 能 强大 ， 但 它 还 不 够 美观 (而且 一 点 交互 性 也 
没有 )。 如 果 想 深入 了 解数 据 可 视 化 ， 你 可 以 有 多 种 选择 。 


一 种 是 深入 学 习 matplotlib， 因 为 我 们 涉及 的 内 容 只 是 它 的 一 小 部 分 。 在 它 的 网 站 上 有 
We 它 的 功能 的 例子 (http://matplotlib.org/examples/)， 还 有 一 些 更 有 趣 的 可 视 化 的 攻 
库 | 如 果 你 打算 创建 静态 的 可 视 化 (比如 想 把 它 印 在 书 
里 )， 这 可 能 是 你 下 一 步 最 好 的 选择 。 























你 也 应 该 试 试 seaborn (http://web.stanford.edu/~mwaskom/software/seaborn/)， 这 是 一 个 可 
以 使 matplotlib 更 有 吸引 力 (还 有 其 他 很 多 优点 ) 的 库 。 


如 果 你 想 创建 那 种 可 以 在 网 络 上 分 享 的 交互 式 可 视 化 ，D3.js (http://d3js.org/) 是 首选 ， 它 
是 一 个 可 用 于 创建 “数据 驱动 文档 ”(data driven documents， 名 称 中 的 “3D” 便 由 此 得 来 ) 
的 JavaScript 库 。 即 使 你 不 太 懂 JavaScript， 通 常 也 可 以 从 D3 的 图 库 (https://github.com/ 
mbostock/d3/wiki/Gallery) 中 找到 可 以 模仿 的 例子 ， 并 套用 到 你 (好 的 数据 科学 
家 从 D3 的 图 库 中 复制 例子 ， 出 色 的 数据 科学 家 从 D3 的 图 库 中 “ 偷 ” 例 子 。) 
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即使 你 对 D3 一 点 兴趣 也 没有 ， 仅 仅 浏 览 一 下 它 的 图 库 也 能 学 到 不 少 关 于 数据 可 视 化 的 
东西 。 


Bokeh (http://bokeh.pydata.org/en/latest/) 是 一 个 把 D3 风格 的 功能 整合 到 Python 中 的 项 目 。 


25.3.5 R 


尽管 你 可 以 完全 不 用 学 习 R (http://www.r-project.org/)， 但 许多 数据 科学 家 和 数据 科学 项 
目 都 会 用 到 R， 所 以 起 码 应 该 熟悉 它 。 


这 一 部 分 是 因为 这 样 做 有 益 于 你 理解 别人 基于 R 的 博客 、 案 例 和 代码 ， 一 部 分 是 因为 这 样 
可 以 让 你 更 好 地 领略 Python 的 〈 相 对 的 ) 清晰 和 优雅 。 还 有 一 部 分 原因 是 ， 这 会 让 你 在 永 
不 停息 的 “R 好 还 是 Python 好 ”的 口水 战 中 成 为 一 个 更 加 见 多 识 广 的 专家 。 

















这 个 世界 从 不 缺乏 R 的 教程 、R 的 课程 和 R 的 图 书 。 我 听 说 Hands-On Programming with 
RR (http://shop.oreilly.com/product/0636920028574.do) 这 本 书 不 错 ， 不 仅仅 是 因为 它 也 是 
O'Reilly 出 版 的 书 。( 好 吧 ， 主 要 就 是 因为 它 是 O'Reilly 出 版 的 书 。) 


25.4 寻找 数据 

如 有 果 你 把 从 事 数据 科学 作为 你 工作 的 一 部 分 ， 那 么 你 会 很 愿意 把 获得 数据 也 作为 你 工作 的 
一 部 分 (尽管 并 不 一 定 )。 如 果 你 把 从 事 数据 科学 工作 视 为 乐趣 将 会 如 何 ” 数 据 是 无 处 不 
在 的 ， 但 下 面 这 些 资 源 可 以 是 很 好 的 起 点 。 





























。 Data.gov (http://www.data.gov/) 是 政府 开放 数据 的 门户 网 站 。 如 果 你 想 找 任何 和 政府 
有 关 的 数据 (现在 看 这 可 能 涉及 方方面面 的 事情 )， 它 是 个 很 好 的 开始 。 

。 reddit 上 有 rdatasets (https://www.reddit.com/r/datasets) 和 rdata (http://www.reddit.com/ 
rdata) 两 个 论坛 ， 是 一 个 可 以 请 求 数 据 和 发 现 数据 的 地 方 。 

。 Amazon.com 上 有 一 些 公 用 数据 集 (http://aws.amazon.com/cn/public-data-sets/ )， 它 希望 
你 能 使 用 它 的 产品 来 分 析 这 些 数据 集 (但 你 可 以 用 任何 你 想 用 的 产品 来 分 析 )。 

。 Robb Seaton 的 博客 上 有 一 个 富有 创意 的 专业 数据 集 的 列表 (http://rs.io/100-interesting- 
data-sets-for-statistics/) 。 

。 Kaggle (https://www.kaggle.com/) 是 一 个 举办 数据 科学 竞赛 的 网 站 。 我 从 设 成 功 跻身 这 
个 比赛 (在 数据 科学 领域 我 没有 多 少 竞 争 力 )， 但 没准 你 就 会 成 功 。 


25.5 ”从事 数据 科学 


翻阅 数据 目录 固然 不 错 ， 但 是 最 好 的 项 目 (和 产品 ) 还 是 那些 让 人 心动 的 。 下 面 列举 我 做 
过 的 其 中 一 些 项 目 。 
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25.5.1 Hacker News 


Hacker News (https://news.ycombinator.com/news) 是 一 个 聚集 并 讨论 与 技术 相关 的 新 闻 的 
网 站 。 它 收集 了 大 量 文章 ， 但 很 多 对 我 来 说 并 不 有 趣 。 


因此 ， 数 年 之 前 ， 我 着 手 建立 了 一 个 Hacker News 的 内 容 分 类 器 (https://github.com/joelgrus/ 
hackernews) 来 预测 我 是 否 喜欢 某 篇 给 定 的 文章 。 这 一 做 法 可 能 会 受到 有 些 Hacker News 用 
户 的 排斥 ， 他 们 会 抱怨 怎么 还 会 有 人 不 喜欢 Hacker News 的 所 有 文章 。 


这 项 工作 涉及 对 大 量 文 章 的 手动 标注 (为 了 建立 训练 集 )， 选 择 文章 的 特征 (比如 标题 中 
的 单词 和 链接 的 域 )， 以 及 训练 一 个 和 之 前 我 们 做 过 的 垃圾 邮件 检测 类 似 的 朴素 贝 叶 斯 分 
类 器 。 


























不 知道 出 于 什么 心理 ， 我 当时 是 用 Ruby 建立 的 分 类 器 。 吸 取 我 的 教训 吧 。 


25.5.2 ”消防 车 


我 生活 在 西雅图 市 中 心 的 一 条 主要 街道 上 ， 这 条 街 是 从 一 个 消防 站 去 往 城市 里 大 多 数 火 灾 
(或 者 看 起 来 疑似 火灾 ) 的 必 经 之 地 。 由 此 ， 多 年 来 我 产生 了 对 西雅图 消防 部 门 的 兴 


幸运 的 是 〈 从 数据 的 观点 ) ， 消 防 部 门 运行 着 一 个 实时 的 911 网 站 (http:/www2.seattle.gov/ 
fire/realtime911/getDatePubTab.asp)， 上 面 列 出 了 每 一 次 火警 状况 和 出 动 的 消防 车 。 


所 以 ， 为 了 满足 我 的 兴趣 ， 我 抓 取 了 多 年 的 火警 数据 并 执行 了 关于 消防 车 的 社交 网 络 分 析 
(https://github.com/joelgrus/fire)， 这 就 要 求 我 创造 了 一 个 特定 的 关于 消防 车 的 中 心性 的 概 
念 ， 我 称 之 为 TruckRank。 














25.5.3 T 恤 


我 有 一 个 小 女儿 ， 她 的 童年 有 一 件 令 我 感到 十 分 诅 霄 的 事情 ， 就 是 “女孩 的 工 恤 ” 大 都 很 
单调 乏味 ， 而 “男孩 的 T 恤 ” 却 都 充满 趣味 。 














尤其 是 ， 我 觉得 出 售 给 男 童 和 女童 的 T 恤 之 间 有 很 明显 的 区 别 。 所 以 我 问 自己 能 不 能 训练 


一 个 模型 来 识别 这 些 区 别 。 











剧 透 : 我 能 (https://github.com/joelgrus/shirts)。 


这 项 工作 包括 下 载 数 百 件 工 恤 的 图 案 ， 把 它们 改 成 同样 的 尺寸 ， 再 把 它们 转换 为 像素 颜色 
的 向 量 ， 最 后 使 用 逻辑 回归 建立 分 类 器 。 


一 种 看 起 来 较为 简单 的 方法 是 针对 每 件 工 恤 的 颜色 分 类 ;第 二 种 方法 是 找到 工 恤 颜 色 向 量 
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的 前 10 个 主 成 分 ， 然 后 把 每 件 工 恤 投影 到 由 10 个 “特征 工 恤 ”(eigenshirt) “所 组 成 的 10 
维 空间 上 进行 分 类 ( 见 图 25-2)。 




















图 25-2: 对 应 于 第 一 个 主 成 分 的 特征 T 恤 


25.5.4 你 呢 ? 
什么 事情 会 让 你 兴致 勃发 ? ， 让 你 夜 寄 ? 去 寻找 相关 的 数据 (或 者 抓 取 一 些 
网 站 ) ， 对 它们 做 一 些 数 据 科 学 的 分 析 吧 。 


告诉 我 你 的 发 现 吧 | 通过 joelgrus@gmail.com 给 我 发 邮件 ， 或 者 去 Twitter @joelgrus 找 我 。 








注 1: 即 10 个 主 成 分 。 一 一 译 者 注 











I 
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AS 
作者 简介 
Joel Grus 是 Google 的 一 位 软件 工程 师 ， 曾 于 数 家 创业 公司 担任 数据 科学 家 。 目 前 住 在 
西雅图 ， 专 注 于 数据 科学 工作 并 乐此不疲 。 偶 尔 在 joelgrus.com 发 表 博 客 ， 长 期 活跃 于 
Twitter @joelgrus 。 





关于 封面 

本 书 封面 上 的 动物 是 岩 雷 鸟 (学 名 Lagopus muta)， 鸡 家 族 中 一 种 中 等 体型 的 猎 鸟 ， 
在 英国 和 加 拿 大 叫 “ 雷 岛 "， 在 美国 叫 “ 雪 鸡 ”。 pn 栖息 于 北极 和 靠近 北极 的 
欧 亚 大 陆 ， 以 及 北美 的 格陵兰 岛 地 区 ,栖息 地 多 为 贫 病 而 孤立 之 地 ， 如 苏格兰 山脉 、 比 利 
牛 斯 山 、 阿 尔后 斯 山 、 乌 拉 尔 山脉 、 帕 米尔 高 原 、 保 加 利 亚 、 阿 尔 泰山 脉 和 日 本 阿尔 后 斯 
山脉 。 食 物 主 要 是 桦 树 和 柳树 的 芽 ， 也 和 包含 种 子 、 花 、 叶 子 、 浆 有 果 等 。 发 育 中 的 锥 鸟 也 吃 
昆虫 。 





雄性 岩 雷 鸟 并 没有 一 般 松 鸡 所 具有 的 典型 的 羽 饰 ， 但 它们 有 肉 冠 ， 可 以 帮助 其 求偶 或 与 其 

他 雄 乌 争斗 。 大 量 研 究 证 明 ， 雄性 岩 雷 鸟 的 肉 冠 尺寸 与 其 谷 酮 水 平 之 间 有 一 定 的 相关 性 
岩 雷 鸟 的 羽毛 冬季 为 白色 ， 春 夏 会 变 为 黑 神 色 ， 可 起 到 季节 性 的 保护 作用 。 具 有 演 殖 能 

的 雄 鸟 翅 膀 为 白色 ， 上 半 部 分 为 灰色 ， 但 在 冬 李 ， 除 了 尾羽 呈 黑 色 外 ， 周 身 均 为 白色 。 


6 个 月 大 的 岩 雷 鸟 即 发 育成 玖 ， 且 通常 每 只 峻 岛 可 铸 化 6 只 欠 鸟 ， 以 帮助 保护 种 群 数量 免 
受 诸如 狩猎 等 和 外界 因素 的 影响 。 岩 雷 鸟 主要 被 金 肘 捕 食 ， 而 偏远 孤立 的 栖息 地 帮助 其 艇 过 
了 很 多 其 他 捕食 者 。 

岩 雷 鸟 肉 在 冰岛 是 备 受 欢迎 的 节日 父 主 食 。 由 于 种 群 数量 的 下 降 ， 岩 雷 鸟 的 捕猎 在 2003 
年 和 2004 年 是 被 禁止 的 。2005 年 ， 捕 猫 禁 令 解 除 ， 但 特定 时 期 内 仍 禁 止 捕猎 。 所 有 与 岩 
雷 鸟 有 关 的 交易 都 是 非法 的 。 


O’Reilly 封面 上 的 动物 很 多 都 是 濒临 灭绝 的 ， 所 有 这 些 动物 对 世界 来 说 都 是 很 重要 的 。 若 
想 了 解 你 力所能及 的 事 ， 请 访问 animals.oreilly.com。 


封面 图 片 来 自 Cassell 的 Natural History。 
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大 数据 时 代 的 实战 宝典 ， 揭 秘 数据 科学 相关 的 最 新 算法 、 方 法 与 模型 | 
本 书 脱胎 于 哥伦比亚 大 学 “数据 科学 导论 ”课程 的 教学 讲义 ， 界 定 
了 数据 科学 的 研究 范畴 ， 是 一 本 多 角度 、 全 方位 、 深 入 介绍 数据 科 
学 的 实用 指南 。 本 书 旨 在 让 读者 能 举一反三 地 解决 重要 问题 ， 内 容 
包括 数据 科学 及 工作 流程 、 统 计 模 型 与 机 器 学 习 算法 、 信 息 提 取 与 
统计 变量 创建 、 数 据 可 视 化 与 社交 网 络 、 预 测 模型 与 因果 分 析 、 数 
据 预 处 理 与 工程 方法 。 
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大 数据 时 代 ， 数 据 科 学 研究 与 分 析 日 益 重要 。 本 书 独树一帜 ， 教 你 
利用 灵活 的 命令 行 工 具 成 为 高 效 多 产 的 数据 科学 家 。 为 此 ， 作 者 开 
发 了 数据 科学 工具 箱 ， 一 个 包含 80 多 个 命令 行 工 具 的 安装 简单 的 虚 
拟 环境 ， 能 在 Windows、OS X 和 Linux 操 作 系统 上 运行 。 你 将 学 会 如 
何 结合 使 用 这 些小 而 强大 的 命令 行 工 具 ， 快 速 地 获取 、 清 洗 、 探 索 和 
建 模 数据 。 即 使 你 已 经 能 够 使 用 Python 或 R 得 心 应 手 地 处 理 数 据 ， 利 
用 命令 行 也 将 大 大 改进 你 的 数据 科学 工作 流 。 
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大 数据 权威 著作 全 面 升级 版 ! 第 1 版 畅销 40000 册 ! 

本 书 源 自作 者 在 斯 坦 福 大 学 教授 的 “海量 数据 挖掘 ” ( CS246: Mining 
Massive Datasets ) 课程 ， 第 1 版 上 市 以 来 受到 读者 广泛 欢迎 和 认可 。 本 
书 以 大 数据 环境 下 的 数据 挖掘 和 机 器 学 习 为 重点 ， 全 面 介绍 了 行 之 有 效 
的 数据 处 理 算 法 ， 是 在 校 学 生 和 相关 从 业 人 员 的 必 备 读物 。 
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这 是 一 本 实用 手册 ， 四 位 作者 均 是 Cloudera 公 司 的 数据 科学 家 ， 他 们 
联 袍 展示 了 利用 Spark 进 行 大 规模 数据 分 析 的 若干 模式 ， 而 且 每 个 模 
式 都 自 成 一 体 。 首 先 介绍 了 Spark 及 其 生态 系统 ， 接 着 详细 介绍 了 将 
分 类 、 协 同 过 滤 及 异常 检查 等 常用 技术 应 用 于 基因 学 、 安 全 和 金融 领 
域 的 若干 模式 。 如 果 你 对 机 器 学 习 和 统计 学 有 基本 的 了 解 ， 并 且 会 用 
Java、Python 或 Scala 编 程 ， 这 些 模式 将 有 助 于 你 开发 自己 的 数据 应 
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本 书 为 了 解数 据 可 视 化 的 重要 内 容 和 功能 提供 了 多 学 科 的 视角 ， 通 
过 各 种 各 样 的 案例 分 析 ， 来 演示 可 视 化 如 何 让 数据 变 得 更 清晰 、 更 
全 面 ， 通 过 对 数据 可 视 化 的 广泛 用 途 和 适用 性 的 讨论 ， 来 了 解 它 如 
何 让 数据 变 得 更 容易 接受 和 理解 。 
本 书 的 读者 对 象 包括 数据 分 析 师 、 视 觉 设计 师 ， 以 及 对 数据 呈现 感 
兴趣 的 开发 人 员 等 。 
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如 今 ， 所 有 领域 的 数据 量 都 在 急剧 增长 。 针 对 如 何 高 效 利 用 这 些 数 
据 ， 本 书 介绍 了 开源 集群 计算 系统 Apache Spark， 它 可 以 加 速 数据 
分 析 的 实现 和 运行 。 利 用 Spark， 你 可 以 用 Python、Java 以 及 Scala 
的 简易 APl 来 快速 操控 大 规模 数据 集 。 本 书 由 Spark 开 发 者 及 核心 成 
员 共同 打造 ， 带 领 读者 快速 掌握 用 Spark 收 集 、 计 算 、 简 化 和 保存 海 
量 数据 的 方法 ， 学 会 交互 、 迭 代 和 增 量 式 分 析 ， 解 决 分 区 、 数 据 本 地 
化 和 自 定 义 序 列 化 等 问题 。 
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手把手 带 你 进入 大 数据 挖掘 领域 ，Python 数 据 分 析 首 选 ! 

NumPy 是 一 个 优秀 的 科学 计算 库 ， 提 供 了 很 多 实用 的 数学 函数 、 强 
大 的 多 维 数组 对 象 和 优异 的 计算 性 能 。 本 书 从 NumPy 安 装 讲 起 ， 逐 
渐 过 渡 到 数组 对 象 、 常 用 函数 、 和 矩阵 运算 、 线 性 代数 、 金 融 函 数 、 
窗 函数 、 质 量 控制 等 内 容 ， 致 力 于 向 初中 级 Python 编 程 人 员 全 面 i 
述 NumPy 及 其 使 用 。 
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为 什么 要 将 命运 交 予 偶然 之 手 ? 何不 多 学 习 一 点 概率 知识 ， 掌 控 自 己 
的 命运 呢 ? 本 书 会 把 你 武装 起 来 。 

利用 统计 推断 的 各 种 工具 ， 能 够 揭 开 概 率 的 神秘 面纱 、 发 现 相关 性 ， 
能 够 异常 准确 地 预测 事件 的 发 生 ， 甚 至 能 让 你 在 博彩 时 准确 下 注 ， 小 
有 斩获 。 本 书 介绍 的 实用 技巧 运用 了 统计 学 原理 ， 还 借鉴 了 教育 学 和 
心理 学 上 的 测量 和 实验 研究 方法 。 这 些 技巧 可 以 帮 你 解决 商业 、 游 戏 
以 及 日 常生 活 中 的 各 类 问题 。 
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数据 科学 入 门 

数据 科学 是 一 个 蓬勃 发 展 、 前 途 无 限 的 行业 ， 有 人 将 数据 科学 家 称 “Joel Grus 带 你 踏 上 数据 科学 的 

为 “21 世 纪 头 号 性 感 职业 ”。 本 书 从 零 开始 讲解 数据 科学 工作 ， 教 授 探索 之 旅 ， 让 你 从 对 数据 的 好 

数据 科学 工作 所 必需 的 黑客 技能 ， 并 带领 读者 熟悉 数据 科学 的 核心 知 ” 奇 飞跃 到 通 透 理 解 每 个 数据 科 

识 一 一 数学 和 统计 学 。 学 家 都 应 知道 的 实用 算法 。” 
一 一 Rohit Sivaprasad 

作者 选择 了 功能 强大 、 简 单 易学 的 Python 语言 环境 ， 亲 手 搭建 工具 和 实 Soylent 公 司 数 据 科 学 家 

现 算法 ， 并 精心 挑选 了 注释 良好 、 简 洁 易 读 的 实现 范例 。 书 中 涵盖 的 所 

有 代码 和 数据 都 可 以 在 GitHub 上 下 载 。 


datatau.com 


通过 阅读 本 书 ， 你 可 以 : 

四 学 到 一 堂 Python 速成 课 ， 

目 学 习 线性 代数 、 统 计 和 概率 论 的 基本 方法 ， 了 解 它们 是 怎样 应 用 
在 数据 科学 中 的 ，; 

目 掌握 如 何 收集 、 探 索 、 清 理 、 转 换 和 操作 数据 ; 

国 深入 理解 机 器 学 习 的 基础 ; 

重 运用 k 近 邻 、 朴 素 贝 叶 斯 、 线 性 回归 和 逻辑 回归 、 决 策 树 、 神 经 
网 络 和 聚 类 等 各 种 数据 模型 ; 


国 探索 推荐 系统 、 自 然 语 言 处 理 、 网 络 分 析 、MapReduce 和 数据 
库 。 


Joel Grus 是 Google 的 一 位 软件 工程 师 ， 曾 在 多 家 创业 公司 担任 数据 科学 
家 。 目 前 住 在 西雅图 ， 专 注 于 数据 科学 工作 并 乐此不疲 。 偶 尔 在 joelgrus. 
com 发 表 博 客 ， 长 期 活跃 于 Twitter， 可 关注 O@joelgrus。 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
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